Zadanie domowe:
analiza eksploracyjna + test statystyczny
Definicja zadania
- Cel główny - praca nad zbiorem danych: analiza eksploracyjna plus testowanie statystyczne
- Wybór zbioru danych:
- użycie zbioru już istniejącego:
https://www.kaggle.com/datasets
https://archive.ics.uci.edu/ml/index.php
https://stat.gov.pl/podstawowe-dane/
https://github.com/fivethirtyeight
https://datasetsearch.research.google.com/
inne źródło
- użycie własnego zbioru (posiadanego lub zebranego)
prośba by zgłaszać wybrany zbiór (uwaga: można zmienić decyzję) na Slacku na kanale "#zadanie-domowe" - chodzi o to by zbiory były unikalne (wybór na zasadzie kto pierwszy zgłosi ten rezerwuje dany zbiór);
- Analiza eksploracyjna, w tym szereg rozdzielczy (jeden bądź więcej), histogramy (ważny jest poprawny dobór liczby przedziałów), wyznaczenie wartości statystyk opisowych, dodatkowe wykresy oraz krótka analiza słowna (wypunktowanie najważniejszych wniosków/obserwacji);
- Test statystyczny: postawić co najmniej jedną hipotezę dotyczącą danych i przetestować ją z użyciej jednego ze znanych testów. W przypadku gdy zbiór danych stanowi całą populację należy wylosować/wyodrębnić podzbiór oraz finalnie skomentować czy popełniono błąd I rodzaju lub błąd II rodzaju;
Forma i termin realizacji
- Wynikiem prac może być notebook R (dodatkowo zapisany jako pdf albo html);
- Wynik powinien zawierać:
- dane studenta (imię, nazwisko, nr indeksu);
- opis zbioru danych: skąd pochodzi (warto podać link jeśli istnieje), co zawiera, jak powstał (czy jako obserwację, czy wyniki eksperymentu), itp. (max pół strony) - 2pkt.
- część dotycząca analizy eksploracyjnej (wykresy, wartości statystyk, komentarze - opis wyżej) - 12pkt.
- część dotycząca testowaniu hipotez (sformułowanie hipotez, wybór testu, weryfikacja wymagań, obliczenia i wynik wraz z wnioskiem) - 14pkt.
- podsumowanie w formie wypunktowania: motywacje wyborów, wnioski, propozycje dalszych kroków, itp. - 2pkt.
- Termin - do wtorku 06.06.23 (do godz. 11.00 AM). Za pierwszy rozpoczęty tydzień spóźnienia -5% punktów. UWAGA: pierwszy termin wydłużony do soboty 10 czerwca. Warunkiem zaliczenia zadania domowego w pierwszym terminie jest oddanie go najpóźniej na ostatnich zajęciach (grupy wtorkowe 13.06.23, grupa piątkowa 16.06.23). Sposób wysłania i forma - e-mail do prowadzącego (uwaga: w tym wypadku nie wystarczy tylko wysłanie na Slack (choć też można dla wygody prowadzącego)); załączniki do emaila (i) sprawozdanie (pdf/html z Jupyter Notebook) oraz (ii) kod (plik ipynb) + (iii) ewentualnie dane (jeśli nie zostały wskazane w formie linku).