Úvod do strojového učení - testy + zkouška

Každý neuvedený předmět

Úvod do strojového učení - testy + zkouška

Příspěvekod Quake » 30. 1. 2020 14:09

Přijde mi, že strojové učení není zde na fóru skoro vůbec popsáno, takže se pokusím popsat celý předmět.
Letos (2019/2020) bylo na zápočet potřeba napsat dvě písemky a vypracovat tři domácí úkoly. To je rozdílné od předchozích let, kde údajně byly písemky tři. Předmět je zakončen ústní zkouškou. Výsledná známka se však počítá z ústního zkoušení (30 %), písemek (50 %) a domácích úkolů (20 %).

První domácí úkol byl za 10 bodů a podle přednášejících mělo jít o seznámení s R.
Druhý domácí úkol by za 30 bodů a kód v Rku stačilo v podstatě zkopírovat ze cvičení, šlo spíše o interpretaci výsledků.
Třetí domácí úkol je ten velký, je za 50 bodů, ale přišlo, že mi to hodnotí docela mírně (takže to nemusíte moc přehánět), zadání najdete zde v příloze. Pokud jde o optimální výsledný precision, tak je to okolo 20 %.
Dohromady tedy bylo za domácí úkoly 90 bodů a na zápočet jich bylo potřeba 65.

První písemka byla za 30 bodů a měla být z témat:
  • pravděpodobnost a podmíněná pravděpodobnost
  • analýza dat - variace, korelace, medián, kvantily
  • entropie a podmíněná entropie
  • ensemble classifiers - majority voting
  • matice konfuze - inter-annotator agreement
  • evaluace klasifikátorů
V písemce byly čtyři úkoly:
1) Byla zadána matice konfuze dvou anotárů a úkolem bylo napsat procenta agreementů pro třídy
2) Opět byla zadána matice konfuze, tentokrát predikce a gold standard data. Chtěli pravděpodobnostní rozdělení, accuracy a error rate.
3) Entropie - hází se třemi spravedlivými mincemi, spočítejte entropii. Jak se entropie změní, pokud na jedné minci bude padat jen panna?
4) Máte tři binární klasifikátory a jejich error rates. Zlepší jejich kombinace za užití majority voting predikci. Spočítejte maximální dosažitelnou accuracy.
Přišlo mi, že tato písemka nijak neovlivňuje výslednou známku, je to spíš pomoc pro získání zápočtu.

Druhá písemka je na 100 bodů. Holub na zkoušce říkal, že ti, co mají více než 70 bodů to mají zhruba na dvojku. Ti co mají více než 80 na jedničku. A celkově mi přišlo, že známka záležela v podstatě jen na této písemce a ústní zkoušení byla spíš formalita, která ale může známku trochu zlepšit nebo možná i trochu zhoršit (nevím o nikom, kdo by měl špatnou ústní zkoušku, takže nevím, co se v takovém případě děje). Ve druhé písemce může být vše, co se za semestr probralo, ale nejsou tam důkazy ani neurálky. Zadání bylo dosti podobné tomuto: viewtopic.php?f=163&t=11842
Přesto sem však dám seznam otázek, které si vybavuji, že tam byly (asi to nebudou všechny):
    Entropie - příklad s mincemi
    Parametry k-means
    Logistická regrese - vzorec, loss function
    Vzorec lineární regrese + aplikace na příkladu (dosazení do vzorce)
    Bias-variance tradeoff graf + true error a test error
    Hierarchický clustering - dendrogram
    Statistické testy
    - chi kvadrat goodness of fit test - nulová hypotéza
    - kritická hodnota
    - t-test p-value a significance level
    - může být p-value záporná?
    SVM - rovnice nadroviny, maximal margin classifier
    Naivní Bayes - podle jaké funknce klasifikuje, proč je naivní
    ROC křivka - k čemu se používá, jaké jsou osy
    Binární klasifikátor, zadaný počet pozorování + precision a sensitivita, doplňte matici konfuze (podobný příklad jako ve sbírce)


Ústní zkouška:
Zkouší Hladká i Holub, lidi si rozdělují náhodně. Z doslechu mi však přišla ústní zkouška u Hladké snazší a příjemnější.
Já měla Holuba. Ten se mnou nejdříve prošel písemku a ukazoval mi, co tam mám špatně. Občas se u něčeho zeptal, jestli vím, proč je to špatně a jak by to mělo být správně. Poté mi zadal dvě otázky na ústní, já dostal k-means clustering a poté ensemble metody (random forests a AdaBoost). Pak dostanete čas na to otázky vypracovat, říkal mi, že mám patnáct minut, ale když za vámi přijde a vy mu řeknete, že ještě něco píšete, tak vám dá čas. Poté s ním otázky projdete. Pokud se mu tam zdá něco nejasného nebo špatně, tak se vás doptá, případně vám vysvětlí, jak je to správně. Pokud nemáte úplně správnou terminologii, tak to ani moc nevadí. Zdálo se mi, že mu jde spíš o tu myšlenku. U náhodných lesů se mě ptal, jak tam funguje to náhodné vybírání příznaků pro stromy - neděje se to na začátku, jak jsem si myslela, ale při každém splitu náhodně vybírá. U AdaBoostu jsem měla jen hlavní myšlenku. Pak ho ještě zajímalo, proč to vlastně děláme (snížíme varianci) a proč jsou pro to stromy dobré (používají se i u AdaBoostu, protože jsou unstable, takže jednotlivé modely se budou lišit, což je žádoucí).
I přesto, že jsem tam měla několik nedostatků a u AdaBoostu jsem znala jen základní myšlenku, nepamatovala jsem si algoritmus a popletla distribuci, tak mi řekl, že je ústní mezi 1 a 2, což mi přišlo docela mírné. Vzhledem k písemce (72 bodů) to byla dvojka celkově.
Quake
Matfyz(ák|ačka) level I
 
Příspěvky: 9
Registrován: 25. 5. 2018 21:28
Typ studia: Informatika Bc.

Re: Úvod do strojového učení - testy + zkouška

Příspěvekod Quake » 30. 1. 2020 14:12

Zde ještě přikládám zadání domácích úkolů.
Přílohy
HW3.2019.specification.pdf
(125.73 KiB) 79 krát
hw2.pdf
(100.71 KiB) 86 krát
hw1.pdf
(85.39 KiB) 74 krát
Quake
Matfyz(ák|ačka) level I
 
Příspěvky: 9
Registrován: 25. 5. 2018 21:28
Typ studia: Informatika Bc.


Zpět na Ostatní

Kdo je online

Uživatelé procházející toto fórum: Žádní registrovaní uživatelé a 1 návštěvník