תרגיל 2 - פורום שאלות

cross validation

היי!

אשמח בבקשה לקבל עזרה ואינטואיציה לגבי שאלה 5 בחלק השלישי של התרגיל - קיבלתי שלאחר שינוי הסאבסטים מ-10 ל-4 יש הגדלה של השגיאה עבור random forest ו-gradiant boosting, אך הקטנה של השגיאה ב-Linear regression. אני קצת מתקשה להבין מדוע שהשגיאה של linear regression תקטן אם הקטנו את ה-training set (אלא אם טעיתי במימוש).

תודה רבה!

Gil Einat (

Friday, 16 December 2022, 23:49

16/12/22, 23:49

1 Answer

האם מדובר בשגיאת אימון או שגיאת וולידציה? כלומר האם מדובר בשגיאה על נתונים שהמודל כבר ראה? או שגיאה על נתונים שהמודל עוד לא ראה?

Roey Ben-Yosef (

20)

Sunday, 18 December 2022, 10:36

18/12/22, 10:36

לא מצאתי התייחסות בתוכנה האם ה-MSE המוצג מחושב עבור ה-Train set או ה-test set (התוצאות המוצגות במודול test and score המשווה בין המודלים השונים)

Gil Einat - 18/12/22, 18:21

התשובה הראשונה שקופצת לי לראש היא אוברפיטינג. רגרסיה לינארית פשוטה פגיעה יותר לתופעה הזאת מהשיטות האחרות.

Roey Ben-Yosef - 18/12/22, 22:57