## Hoorcollege **Data Science** is een multidisciplinair veld dat concepten uit Computer Science (informatica), statistiek/machine learning en data analyze gebruikt om inzichten te creƫren in steeds groeiende hoeveelheden data. Er bestaan twee *paradigms* binnen Data research (en dus data Science), namelijk: 1. **Hypothesis-Driven** - Hierbij zoek je gericht om een bepaalde vraagstelling/probleem te beantwoorden (gedreven door een vraag/probleem) 2. **Data-Driven** - Er zijn gegevens beschikbaar, wat kunnen we hiermee (Gedreven door het feit dat er data is) Types Machine Learning: * **Supervised Learning** - De data is voorzien van historische gegevens waarmee getraind kan worden * **Unsupervised Learning** - Clusteren van data * **Reinforcement Learning** - Leren door het interacteren met de omgeving ### Types van supervised Learning * **Classification** - Iets toewijzen tot een discrete set van van mogelijkheden. Zoals spam/geen-spam of bloed type * **Regressie** - Het voorspellen van een numerieke waarde. ## Discussiecollege ### Probability **Experiment** - *Iets* dat een bepaalde set van mogelijkheiden als uitkomst heeft **Sample Space** - Aangegeven met $s$, de set van alle mogelijkheden **Event** - Set van uitkomsten of criteria. ### Statistics **Mean** - Het gemiddelde som delen door n (n = hoeveelheid getallen) **Median** - Het middelste getal in een gesorteerde lijst **Mode** - Wat het meest voorkomt **Variance** - **Standard daviation** - **Linear correlation** - Hiermee wordt de (lineaire) relatie tussen twee variabelen gemeten ### Wiskunde **logaritme** - Het omgekeerde van een exponent.