data_science_bd04/week 5.md at 784274d97e6431b21cb936653d99c164d3331acb

martijn/data_science_bd04

Fork 0

Files

martijn e27c2085f0 Hernoemen en aanvullingen

2022-01-31 13:05:45 +01:00

2.9 KiB

Raw Blame History

Hoorcollege

Decision Trees

Decision trees hebben de volgende voordelen:

Non-linearity
Support for categorical variables
Easy to interpret
Application to regression

Nadelen:

Prone to overfitting
Instable (not rebust to noise)
High variance
Low bias

Decision Trees worden gemaakt op ongeveer de volgende manier (recursive partitioning steps):

Kies een predictor X_i
Kies een waarde S_i uit X_i welke de waardes in 2 splits (niet perse gelijk)
Meet hoe puur deze splitsing is. Puur = wanneer deze splitsing perfect classificeert
Met een algoritme worden verschillende waardes van X_i en S_i vergeleken om de puurheid te maximaliseren op de eerste split.
Wanneer deze maximale puurheid behaalt is wordt hetzelfde process doorlopen voor een tweede splits enzovoorts.

Meten van puurheid (m is het aantal categorieën):

Gini Index
- Waarde tussen 0,0 en 1 - 1 / m
- Volledig puur wanneer I(A) = 0
Entropy
- Volledige puur wanneer Ent(A) = 0

Pruning

CART ('Classification and Regression Trees') laat de tree volledig tot stand komen (deze is dus overfit)
Probeer het punt te vinden waar de validatie error begint op te lopen
Genereer steeds kleinere trees door leaves te prunen
Op elk pruning moment zijn er meerdere verschillende mogelijkheden
Gebruik een cost complexity functie om de beste tree te kiezen

Regression Trees for Prediction

Wordt gebruikt bij continue uitkomst variabelen (afhankelijke)
Vergelijkbare procedure als een classification tree
Veel splits worden geprobeerd, kies de split welke impurity minimaliseerd
Voorspelling is het gemiddelde van het numerische doelvariabelen in de vierkant (Bij Classification Trees is het een majority vote)
impuurheid gemeten door de som van deviatie in het kwadraat
Performance gemeten door RMSE (root mean squared error)

Ensemble

Ensemble learning is een strategie waarbij meerdere verschillende classifiers/models in één model worden gecombineerd. Dit reduceert variantie in de voorspelling. Er zijn verschillende Ensemble methodes:

Bagging - Er worden meerdere instanties van hetzelfde model gebouwd elk getrained op een verschillende subset van de originele dataset. Staat voor "Bootrstrapping and Aggregating"
Random Forests - Een methode specifiek voor Decision Trees. Werkt voort op dezelfde basis als bagging alleen wordt meer randomness gehanteerd bij het creeren van splitsingen in de boom.
Boosting - Verbeterd een model door informatie te gebruiken van vorige classifiers.

Samengevat:

Presteren over het algemeen beter dan individuele modellen
Hebben vele varianten (averaging, weighted avereging, voting, medians, resampling)
Bevorderd "parallel processing"
Helpt tegen overfitting (but does not cure it)
Zijn black-box modellen met hoge transparantie verliezen dit wanneer ensembled

2.9 KiB Raw Blame History

Hoorcollege

Decision Trees

Ensemble

2.9 KiB

Raw Blame History