חלק 1 סעיף 7


0

היי רועי,

ערב טוב

בחלק 1 סעיף 7, בקשו שנבחר את העמודה שתאפשר סיווג במידה הרבה ביותר ולהפך.
לפי הסרטונים שמסבירים על התוכנה הבנתי שעמודה טובה היא כזו שיש בה פחות חפיפה בחלוקה לפי target. 
האם נכון ליישם את זה גם לתרגיל זה?
במידה וכן, העמודה שיוצאת הכי טובה מלאת נתונים חסרים, האם זה לא אמור להוריד מהאיכות שלה? לא כדי  לבחור את העמודה לפי כמות הנתונים החסרים?


אני מצרפת תמונה מהסרטון ביוטיוב כי להדגים למה התכוונתי





1 Answer

0

היי סתיו! אחלה שאלות.

ככלל, התשובה היא כן. פיצ'ר שמראה פחות חפיפה בחלוקה לפי משתנה המטרה, יהיה בעל ערך גבוה יותר מבחינתנו כשנרצה לסווג. לדוגמא אם נרצה לסווג צמחים לשיחים/עצים, הגובה שלהם יתן הפרדה די טובה וכנראה שנרצה להשתמש בו (יותר מצבע העלים לפחות.).

זה לא אומר אגב, שהפיצ'רים האחרים חסרי ערך. לפעמים שילוב של כמה פיצ'רים שכל אחד בפני עצמו נראה בעל ערך נמוך, דווקא נותן כושר סיווג טוב. בזיהוי תמונות למשל, אף פיקסל בפני עצמו הוא לא בעל ערך רב בזיהוי התמונה, אבל אפשר לשלב את הערכים שלהם ליצירת מודלים די מתוחכמים.


לגבי הערכים החסרים, התשובה קצת מורכבת. דאטה כמעט אף פעם לא נקי לגמרי, וכמעט תמיד יש ערכים חסרים. אם יש לנו מזל, אז הערכים החסרים הם מיעוט ולא ישפיעו יותר מדי, אבל אם 90% מהנתונים הם זבל, כנראה שלא נוכל להפיק מהם יותר מדי. במקרה שלנו באמת מדובר במיעוט, ואין צורך לבחור את העמודה לפי מספר הערכים החסרים. בכל מקרה כדאי לחשוב איך עדיף להתמודד עם זה. יש כמה כמה דרכים ולכל אחת יש את היתרונות והחסרונות שלה.