Tf–idf

Trong truy hồi thông tin, tf–idf, TF*IDF, hay TFIDF, viết tắt từ cụm từ tiếng Anh: term frequency–inverse document frequency, là một thống kê số học nhằm phản ánh tầm quan trọng của một từ đối với một văn bản trong một tập hợp hay một ngữ liệu văn bản.[1] tf–idf thường dùng dưới dạng là một trọng số trong tìm kiếm truy xuất thông tin, khai thác văn bản, và mô hình hóa người dùng.

Giá trị tf–idf tăng tỉ lệ thuận với số lần xuất hiện của một từ trong tài liệu và được bù đắp bởi số lượng tài liệu trong kho ngữ liệu có chứa từ, giúp điều chỉnh thực tế là một số từ xuất hiện nói chung thường xuyên hơn. tf-idf là một trong những lược đồ (scheme) tính trọng số phổ biến nhất hiện nay. Một cuộc khảo sát được thực hiện vào năm 2015 cho thấy 83% các hệ thống khuyến nghị dựa trên văn bản (text-based recommender systems) trong các thư viện số sử dụng tf-idf.[2]

TF- term frequency – tần số xuất hiện của 1 từ trong 1 văn bản. Cách tính:

  • Thương của số lần xuất hiện 1 từ trong văn bản và số lần xuất hiện nhiều nhất của một từ bất kỳ trong văn bản đó. (giá trị sẽ thuộc khoảng [0, 1])
  • f(t,d) - số lần xuất hiện từ t trong văn bản d.
  • max{f(w,d):w∈d} - số lần xuất hiện nhiều nhất của một từ bất kỳ trong văn bản.

IDFinverse document frequency. Tần số nghịch của 1 từ trong tập văn bản (corpus).

Tính IDF để giảm giá trị của những từ phổ biến. Mỗi từ chỉ có 1 giá trị IDF duy nhất trong tập văn bản.

  • : - tổng số văn bản trong tập D
  • : - số văn bản chứa từ nhất định, với điều kiện xuất hiện trong văn bản d (i.e., ). Nếu từ đó không xuất hiện ở bất cứ 1 văn bản nào trong tập thì mẫu số sẽ bằng 0 => phép chia cho không không hợp lệ, vì thế người ta thường thay bằng mẫu thức .

Cơ số logarit trong công thức này không thay đổi giá trị của 1 từ mà chỉ thu hẹp khoảng giá trị của từ đó. Vì thay đổi cơ số sẽ dẫn đến việc giá trị của các từ thay đổi bởi một số nhất định và tỷ lệ giữa các trọng lượng với nhau sẽ không thay đổi. (nói cách khác, thay đổi cơ số sẽ không ảnh hưởng đến tỷ lệ giữa các giá trị IDF). Tuy nhiên việc thay đổi khoảng giá trị sẽ giúp tỷ lệ giữa IDF và TF tương đồng để dùng cho công thức TF-IDF như bên dưới.

Giá trị TF-IDF:

Những từ có giá trị TF-IDF cao là những từ xuất hiện nhiều trong văn bản này, và xuất hiện ít trong các văn bản khác. Việc này giúp lọc ra những từ phổ biến và giữ lại những từ có giá trị cao (từ khoá của văn bản đó).

Ứng dụng

[sửa | sửa mã nguồn]

IDF có ứng dụng trong máy tìm kiếm. Ví dụ, khi người dùng gửi một truy vấn đến máy tìm kiếm, hệ thống cần biết từ nào là từ người dùng quan tâm nhất. Chẳng hạn: truy vấn của người dùng là "làm thế nào để sửa máy ủi". Sau khi tách từ, chúng ta sẽ có tập các từ: làm, thế nào, để, sửa, máy ủi. Trong các từ này, "máy ủi" sẽ có IDF cao nhất. Hệ thống sẽ lấy ra tất cả các văn bản có chứa từ máy ủi và sau đó mới thực hiện việc đánh giá và so sánh dựa trên toàn bộ câu truy vấn.

Chú thích

[sửa | sửa mã nguồn]
  1. ^ Rajaraman, A.; Ullman, J.D. (2011). “Data Mining” (PDF). Mining of Massive Datasets. tr. 1–17. doi:10.1017/CBO9781139058452.002. ISBN 978-1-139-05845-2.
  2. ^ Breitinger, Corinna; Gipp, Bela; Langer, Stefan (ngày 26 tháng 7 năm 2015). “Research-paper recommender systems: a literature survey”. International Journal on Digital Libraries (bằng tiếng Anh). 17 (4): 305–338. doi:10.1007/s00799-015-0156-0. ISSN 1432-5012.

Liên kết ngoài

[sửa | sửa mã nguồn]
Chúng tôi bán
Bài viết liên quan
Đọc sách như thế nào?
Đọc sách như thế nào?
Chắc chắn là bạn đã biết đọc sách là như thế nào rồi. Bất cứ ai với trình độ học vấn tốt nghiệp cấp 1 đều biết thế nào là đọc sách.
Đại hiền triết Ratna Taisei: Tao Fa - Jigokuraku
Đại hiền triết Ratna Taisei: Tao Fa - Jigokuraku
Tao Fa (Đào Hoa Pháp, bính âm: Táo Huā) là một nhân vật phản diện chính của Thiên đường địa ngục: Jigokuraku. Cô ấy là thành viên của Lord Tensen và là người cai trị một phần của Kotaku, người có biệt danh là Đại hiền triết Ratna Ratna Taisei).
[Homo Scachorum] Giỏi cờ vua hơn không đồng nghĩa với thông minh hơn
[Homo Scachorum] Giỏi cờ vua hơn không đồng nghĩa với thông minh hơn
Trong các bài trước chúng ta đã biết rằng vào thời kì Cờ vua Lãng mạn, cờ vua được coi như một công cụ giáo dục không thể chối cãi
Giới thiệu Light Novel: Isekai Meikyuu no Saishinbu wo Mezasou
Giới thiệu Light Novel: Isekai Meikyuu no Saishinbu wo Mezasou
Một chàng trai thành phố bất ngờ tỉnh lại trong một hành lang tối tăm mà không hiểu chuyện gì đang xảy ra.