cross validation


0

היי!

אשמח בבקשה לקבל עזרה ואינטואיציה לגבי שאלה 5 בחלק השלישי של התרגיל - קיבלתי שלאחר שינוי הסאבסטים מ-10 ל-4 יש הגדלה של השגיאה עבור random forest ו-gradiant boosting, אך הקטנה של השגיאה ב-Linear regression. אני קצת מתקשה להבין מדוע שהשגיאה של linear regression תקטן אם הקטנו את ה-training set (אלא אם טעיתי במימוש).

תודה רבה!


1 Answer

0

האם מדובר בשגיאת אימון או שגיאת וולידציה? כלומר האם מדובר בשגיאה על נתונים שהמודל כבר ראה? או שגיאה על נתונים שהמודל עוד לא ראה?

0

לא מצאתי התייחסות בתוכנה האם ה-MSE המוצג מחושב עבור ה-Train set או ה-test set (התוצאות המוצגות במודול test and score המשווה בין המודלים השונים)

1

התשובה הראשונה שקופצת לי לראש היא אוברפיטינג. רגרסיה לינארית פשוטה פגיעה יותר לתופעה הזאת מהשיטות האחרות.