# Overfitting, underfitting és regularizáció

A mai gyakorlaton a `tf.keras` API-t használjuk neuronhálók tanítására, [Keras guide](https://www.tensorflow.org/guide/keras).

Underfit esetén a modell növelésével tudunk jobb eredményeket elérni.

Túltanulás elkerülésére több megoldás is létezik, az egyik legjobb opció a tanítóadatbázis növelése. Amennyiben ez nem lehetséges, akkor különböző regularizációs módszereket kell alkalmaznunk.

Három lehetséges regularizációs módszert fogunk kipróbálni (weight regularization, dropout és batch normalization) és ezekkel próbáljuk meg javítani az IMDB movie review adatbázison tanított hálók eredményét.

In [None]:
from __future__ import absolute_import, division, print_function

import tensorflow as tf
from tensorflow import keras

import numpy as np
import matplotlib.pyplot as plt

print(tf.__version__)

## Az IMDB dataset letöltése

Az adatbázis 50.000 filmhez írt review-t tartalmazz illetve azt az információt, hogy a review írójának pozitív vagy negatív volt-e a véleménye. A szövegekhez szózsák szerű reprezentáció tartozik (adott szó szerepel-e a szövegben).
A tanítóvektoraink ezek a multi-hot-encoding vektorok a 10.000 leggyakoribb szóhoz. A "0" index az ismeretlen szóhoz tartozik. pl a `[3, 5]` vektorhoz egy 10.000-dimenziós vektort rendelünk, amiben csak a 3. és 5. pozícióban van 1-es mindenhol máshol 0 szerepel.

In [None]:
NUM_WORDS = 10000

(train_data, train_labels), (test_data, test_labels) = keras.datasets.imdb.load_data(num_words=NUM_WORDS)

def multi_hot_sequences(sequences, dimension):
    # Create an all-zero matrix of shape (len(sequences), dimension)
    results = np.zeros((len(sequences), dimension))
    for i, word_indices in enumerate(sequences):
        results[i, word_indices] = 1.0  # set specific indices of results[i] to 1s
    return results


train_data = multi_hot_sequences(train_data, dimension=NUM_WORDS)
test_data = multi_hot_sequences(test_data, dimension=NUM_WORDS)

Nézzünk egy példát a bemeneti vektorra

In [None]:
plt.plot(train_data[0])

## Under- és Overfitting

Underfitting-et legkönnyebben kis méretű modellel tudunk elérni, míg overfittinget egy túl nagy hálóval.


### Alaprendszer tanítása

Egy viszonylag jó méretű modell, amihez tudunk majd hasonlítani.

In [None]:
baseline_model = keras.Sequential([
    # `input_shape` is only required here so that `.summary` works. 
    keras.layers.Dense(16, activation=tf.nn.relu, input_shape=(NUM_WORDS,)),
    keras.layers.Dense(16, activation=tf.nn.relu),
    keras.layers.Dense(1, activation=tf.nn.sigmoid)
])

baseline_model.compile(optimizer='adam',
                       loss='binary_crossentropy',
                       metrics=['accuracy', 'binary_crossentropy'])

baseline_model.summary()

In [None]:
baseline_history = baseline_model.fit(train_data,
                                      train_labels,
                                      epochs=20,
                                      batch_size=512,
                                      validation_data=(test_data, test_labels),
                                      verbose=2)

### Kis modell tanítása

In [None]:
smaller_model = keras.Sequential([
    keras.layers.Dense(4, activation=tf.nn.relu, input_shape=(NUM_WORDS,)),
    keras.layers.Dense(4, activation=tf.nn.relu),
    keras.layers.Dense(1, activation=tf.nn.sigmoid)
])

smaller_model.compile(optimizer='adam',
                loss='binary_crossentropy',
                metrics=['accuracy', 'binary_crossentropy'])

smaller_model.summary()

In [None]:
smaller_history = smaller_model.fit(train_data,
                                    train_labels,
                                    epochs=20,
                                    batch_size=512,
                                    validation_data=(test_data, test_labels),
                                    verbose=2)

### Túlillesztés nagy neuronhálóval



In [None]:
bigger_model = keras.models.Sequential([
    keras.layers.Dense(512, activation=tf.nn.relu, input_shape=(NUM_WORDS,)),
    keras.layers.Dense(512, activation=tf.nn.relu),
    keras.layers.Dense(1, activation=tf.nn.sigmoid)
])

bigger_model.compile(optimizer='adam',
                     loss='binary_crossentropy',
                     metrics=['accuracy','binary_crossentropy'])

bigger_model.summary()

And, again, train the model using the same data:

In [None]:
bigger_history = bigger_model.fit(train_data, train_labels,
                                  epochs=20,
                                  batch_size=512,
                                  validation_data=(test_data, test_labels),
                                  verbose=2)

### Tanulási görbék megjelenítésa


In [None]:
def plot_history(histories, key='binary_crossentropy'):
  plt.figure(figsize=(16,10))
    
  for name, history in histories:
    val = plt.plot(history.epoch, history.history['val_'+key],
                   '--', label=name.title()+' Val')
    plt.plot(history.epoch, history.history[key], color=val[0].get_color(),
             label=name.title()+' Train')

  plt.xlabel('Epochs')
  plt.ylabel(key.replace('_',' ').title())
  plt.legend()

  plt.xlim([0,max(history.epoch)])


plot_history([('baseline', baseline_history),
              ('smaller', smaller_history),
              ('bigger', bigger_history)])

Vizsgáljuk meg, hogy egyes esetekben hogyan viselkedik a hálónk.

## Regularizáció

### L2 weight regularization



In [None]:
l2_model = keras.models.Sequential([
    keras.layers.Dense(16, kernel_regularizer=keras.regularizers.l2(0.001),
                       activation=tf.nn.relu, input_shape=(NUM_WORDS,)),
    keras.layers.Dense(16, kernel_regularizer=keras.regularizers.l2(0.001),
                       activation=tf.nn.relu),
    keras.layers.Dense(1, activation=tf.nn.sigmoid)
])

l2_model.compile(optimizer='adam',
                 loss='binary_crossentropy',
                 metrics=['accuracy', 'binary_crossentropy'])

l2_model_history = l2_model.fit(train_data, train_labels,
                                epochs=20,
                                batch_size=512,
                                validation_data=(test_data, test_labels),
                                verbose=2)

```l2(0.001)``` a súly büntető tagnak az erőssége, azaz a loss értékhez a ```0.001 * weight_coefficient_value**2```-t adjuk hozzá tanítás során.

In [None]:
plot_history([('baseline', baseline_history),
              ('l2', l2_model_history)])

### Dropout

In [None]:
dpt_model = keras.models.Sequential([
    keras.layers.Dense(16, activation=tf.nn.relu, input_shape=(NUM_WORDS,)),
    keras.layers.Dropout(0.5),
    keras.layers.Dense(16, activation=tf.nn.relu),
    keras.layers.Dropout(0.5),
    keras.layers.Dense(1, activation=tf.nn.sigmoid)
])

dpt_model.compile(optimizer='adam',
                  loss='binary_crossentropy',
                  metrics=['accuracy','binary_crossentropy'])

dpt_model_history = dpt_model.fit(train_data, train_labels,
                                  epochs=20,
                                  batch_size=512,
                                  validation_data=(test_data, test_labels),
                                  verbose=2)

In [None]:
plot_history([('baseline', baseline_history),
              ('dropout', dpt_model_history)])

## Batch Normalization

In [None]:
bn_model = keras.models.Sequential([
    keras.layers.Dense(16, activation=tf.nn.relu, input_shape=(NUM_WORDS,)),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(16, activation=tf.nn.relu),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(1, activation=tf.nn.sigmoid)
])
bn_model.compile(optimizer='adam',
                  loss='binary_crossentropy',
                  metrics=['accuracy','binary_crossentropy'])

bn_model_history = dpt_model.fit(train_data, train_labels,
                                  epochs=20,
                                  batch_size=512,
                                  validation_data=(test_data, test_labels),
                                  verbose=2)

In [None]:
plot_history([('baseline', baseline_history),
              ('batch normalization', bn_model_history)])