Data Science

Jako Data Scientist pracowałem w wielu projektach z różnych dziedzin.

Zajmuję się przede wszystkim Przetwarzaniem Języka Naturalnego (NLP) i wszelkimi możliwościami wykorzystywania tekstów w budowaniu systemów sztucznej inteligencji.

Wybrane problemy, które rozwiązywałem z użyciem uczenia maszynowego

  • ocena zrozumiałości polskich aktów prawnych,
  • przewidywanie nadużyć ubezpieczeniowych,
  • przewidywanie fraudów transakcyjnych,
  • eksploracja czynników wpływających na powodzenie kampanii reklamowych.

W swoich analizach korzystam z

  • podstawowych narzędzi statystyki opisowej,
  • narzędzi statystyki inferencyjnej: testów parametrycznych i nieparametrycznych,
  • modeli regresyjnych: liniowych, logistycznych i regularyzowanych,
  • modeli pojedynczych: np. drzew decyzyjnych, maszyn wektorów nośnych,
  • modeli uczenia zespołowego: lasów losowych, wszelkiego rodzaju boostingów,
  • uczenia nienadzorowanego,
  • sieci neuronowych,
  • przetwarzania języka naturalnego (NLP).

Przy pracy badawczej używam

  • języka Python (pandas, numpy, matplotlib, scikit-learn, TensorFlow, Keras, selenium, spacy, nltk),
  • języka R (tidyverse: dplyr, tidyr, ggplot2; tidymodels, tidytext),
  • języka SQL,
  • Excela,
  • git do kontroli wersji,
  • języka zapisu markdown.

Znam również, choć nie mam w zwyczaju używać

  • SAS,
  • software do tworzenia dashboardów,
  • podstawowy html i css.