Desmistificando conceitos fundamentais de aprendizagem de máquina: Autor Terence Shin
O Método de Amostragem bootstrap é um conceito muito simples e e importante, é parte fundamental na construção de alguns dos algoritmos de aprendizado de máquina mais avançados como AdaBoost e XGBoost.
Tecnicamente falando, o método de amostragem bootstrap é um método de resamplagem que usa amostragem aleatória com substituição.
Suponha que tenhamos uma amostra inicial com 3 observações. Usando o método de amostragem bootstrap, criaremos uma amostra com 3 observações também. Cada observação tem igual chance de ser escolhida (1/3). Neste caso, a segunda observação (4, 8) foi escolhida aleatoriamente e será a primeira observação em nossa nova amostra.
Depois de escolher outra observação aleatoriamente, escolhemos a observação verde.
Por último, a observação amarela é escolhida novamente aleatoriamente. Lembre-se que a amostragem de bootstrap usando amostragem aleatória com substituição. Isso significa que é muito possível que uma observação já escolhida seja escolhida novamente.
À medida que aprendemos mais sobre aprendizado de máquina, certamente nos deparararemos com o termo “bootstrap agregado”, também conhecido como “bagging”. Bagging é uma técnica usada em muitos algoritmos de aprendizagem de máquina como, por exemplo:
- florestas aleatórias,
- AdaBoost,
- gradiente boost,
- XGBoost.
Confira o artigo do nosso amigo Terence Shin sobre ensemble, bagging, e boosting.
Às vezes, ao estimar os parâmetros de uma população (ou seja, erro padrão), podemos ter uma amostra que não é grande o suficiente para assumir que a distribuição amostral é normalmente distribuída. Além disso, em alguns casos, pode ser difícil descobrir o erro padrão da estimativa. Em ambos os casos, a amostragem bootstrap pode ser usada para contornar esses problemas.
Em essência, sob o pressuposto de que a amostra é representativa da população, a amostragem de bootstrap é realizada para fornecer uma estimativa da distribuição amostral da estatística amostral em questão.
Este ponto é um pouco mais estatístico, então se você não entende, não se preocupe. Tudo o que você tem que entender é que a amostragem de bootstrap serve de base para o “bagging” que é uma técnica que muitos modelos de aprendizado de máquina usam.