שיכון מילים

שיכון מילים משמש בעיבוד שפה טבעית (NLP), לייצוג של מילה. הייצוג משמשת לעיבוד ואנליזה של טקסטים. בדרך כלל, הייצוג הוא וקטור רב ממדי של מספרים ממשיים המקודד את משמעות המילה, באופן שמילים קרובות במרחב הווקטורי תהיינה דומות במשמעותן.[1] קיימות דרכים רבות להפיק שיכוני מילים, בין השאר באמצעות מודלי שפה, רשתות נוירונים, הורדת מימד, מודלים הסתברותיים ועוד.

שיכון של מילים ומשפטים משפרים מאוד את הביצועים של במשימות עיבוד שפה טבעית מסוימות כמו ניתוח מחרוזות[2] וניתוח סנטימנט.[3]

שיכון One Hot Vector

[עריכת קוד מקור | עריכה]

שיכון One Hot Vector (חם יחיד) הוא אחת הדרכים הפשוטות לשיכון מילים: בהינתן אוצר מילים של N מילים, כל מילה תיוצג באמצעות וקטור N ממדי ייחודי. כל אברי הווקטור יכילו אפסים, למעט איבר אחד שיכיל את הערך 1, בתא המשמש באופן ייחודי לזיהוי המילה. למרות פשטותה, גישה זו סובלת מקללת הממדים (אנ'), חסרה מידע סמנטי ואינה מייצגת את הקשרים בין מילים.[4]

Word2vec

הערות שוליים

[עריכת קוד מקור | עריכה]
  1. ^ Daniel Jurafski and James Martin, Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition processing, Prentice Hall, 2000
  2. ^ Richard Socher, John Bauer, Christopher D. Manning and Andrew Y. Ng, Parsing with Compositional Vector Grammars
  3. ^ Richard Socher et al., [https://nlp.stanford.edu/~socherr/EMNLP2013_RNTN.pdf Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank], EMNLP2013, 2013
  4. ^ Christopher Manning and Hinrich Schütze, Foundations of statistical natural language processing, MIT, 1999, ISBN 9780262133609