Úvod do strojového učení - testy + zkouška

Každý neuvedený předmět
Quake
Matfyz(ák|ačka) level I
Příspěvky: 14
Registrován: 25. 5. 2018 21:28
Typ studia: Informatika Bc.

Úvod do strojového učení - testy + zkouška

Příspěvek od Quake »

Přijde mi, že strojové učení není zde na fóru skoro vůbec popsáno, takže se pokusím popsat celý předmět.
Letos (2019/2020) bylo na zápočet potřeba napsat dvě písemky a vypracovat tři domácí úkoly. To je rozdílné od předchozích let, kde údajně byly písemky tři. Předmět je zakončen ústní zkouškou. Výsledná známka se však počítá z ústního zkoušení (30 %), písemek (50 %) a domácích úkolů (20 %).

První domácí úkol byl za 10 bodů a podle přednášejících mělo jít o seznámení s R.
Druhý domácí úkol by za 30 bodů a kód v Rku stačilo v podstatě zkopírovat ze cvičení, šlo spíše o interpretaci výsledků.
Třetí domácí úkol je ten velký, je za 50 bodů, ale přišlo, že mi to hodnotí docela mírně (takže to nemusíte moc přehánět), zadání najdete zde v příloze. Pokud jde o optimální výsledný precision, tak je to okolo 20 %.
Dohromady tedy bylo za domácí úkoly 90 bodů a na zápočet jich bylo potřeba 65.

První písemka byla za 30 bodů a měla být z témat:
  • pravděpodobnost a podmíněná pravděpodobnost
  • analýza dat - variace, korelace, medián, kvantily
  • entropie a podmíněná entropie
  • ensemble classifiers - majority voting
  • matice konfuze - inter-annotator agreement
  • evaluace klasifikátorů
V písemce byly čtyři úkoly:
1) Byla zadána matice konfuze dvou anotárů a úkolem bylo napsat procenta agreementů pro třídy
2) Opět byla zadána matice konfuze, tentokrát predikce a gold standard data. Chtěli pravděpodobnostní rozdělení, accuracy a error rate.
3) Entropie - hází se třemi spravedlivými mincemi, spočítejte entropii. Jak se entropie změní, pokud na jedné minci bude padat jen panna?
4) Máte tři binární klasifikátory a jejich error rates. Zlepší jejich kombinace za užití majority voting predikci. Spočítejte maximální dosažitelnou accuracy.
Přišlo mi, že tato písemka nijak neovlivňuje výslednou známku, je to spíš pomoc pro získání zápočtu.

Druhá písemka je na 100 bodů. Holub na zkoušce říkal, že ti, co mají více než 70 bodů to mají zhruba na dvojku. Ti co mají více než 80 na jedničku. A celkově mi přišlo, že známka záležela v podstatě jen na této písemce a ústní zkoušení byla spíš formalita, která ale může známku trochu zlepšit nebo možná i trochu zhoršit (nevím o nikom, kdo by měl špatnou ústní zkoušku, takže nevím, co se v takovém případě děje). Ve druhé písemce může být vše, co se za semestr probralo, ale nejsou tam důkazy ani neurálky. Zadání bylo dosti podobné tomuto: http://forum.matfyz.info/viewtopic.php?f=163&t=11842
Přesto sem však dám seznam otázek, které si vybavuji, že tam byly (asi to nebudou všechny):
  • Entropie - příklad s mincemi
    Parametry k-means
    Logistická regrese - vzorec, loss function
    Vzorec lineární regrese + aplikace na příkladu (dosazení do vzorce)
    Bias-variance tradeoff graf + true error a test error
    Hierarchický clustering - dendrogram
    Statistické testy
    - chi kvadrat goodness of fit test - nulová hypotéza
    - kritická hodnota
    - t-test p-value a significance level
    - může být p-value záporná?
    SVM - rovnice nadroviny, maximal margin classifier
    Naivní Bayes - podle jaké funknce klasifikuje, proč je naivní
    ROC křivka - k čemu se používá, jaké jsou osy
    Binární klasifikátor, zadaný počet pozorování + precision a sensitivita, doplňte matici konfuze (podobný příklad jako ve sbírce)


Ústní zkouška:
Zkouší Hladká i Holub, lidi si rozdělují náhodně. Z doslechu mi však přišla ústní zkouška u Hladké snazší a příjemnější.
Já měla Holuba. Ten se mnou nejdříve prošel písemku a ukazoval mi, co tam mám špatně. Občas se u něčeho zeptal, jestli vím, proč je to špatně a jak by to mělo být správně. Poté mi zadal dvě otázky na ústní, já dostal k-means clustering a poté ensemble metody (random forests a AdaBoost). Pak dostanete čas na to otázky vypracovat, říkal mi, že mám patnáct minut, ale když za vámi přijde a vy mu řeknete, že ještě něco píšete, tak vám dá čas. Poté s ním otázky projdete. Pokud se mu tam zdá něco nejasného nebo špatně, tak se vás doptá, případně vám vysvětlí, jak je to správně. Pokud nemáte úplně správnou terminologii, tak to ani moc nevadí. Zdálo se mi, že mu jde spíš o tu myšlenku. U náhodných lesů se mě ptal, jak tam funguje to náhodné vybírání příznaků pro stromy - neděje se to na začátku, jak jsem si myslela, ale při každém splitu náhodně vybírá. U AdaBoostu jsem měla jen hlavní myšlenku. Pak ho ještě zajímalo, proč to vlastně děláme (snížíme varianci) a proč jsou pro to stromy dobré (používají se i u AdaBoostu, protože jsou unstable, takže jednotlivé modely se budou lišit, což je žádoucí).
I přesto, že jsem tam měla několik nedostatků a u AdaBoostu jsem znala jen základní myšlenku, nepamatovala jsem si algoritmus a popletla distribuci, tak mi řekl, že je ústní mezi 1 a 2, což mi přišlo docela mírné. Vzhledem k písemce (72 bodů) to byla dvojka celkově.
Quake
Matfyz(ák|ačka) level I
Příspěvky: 14
Registrován: 25. 5. 2018 21:28
Typ studia: Informatika Bc.

Re: Úvod do strojového učení - testy + zkouška

Příspěvek od Quake »

Zde ještě přikládám zadání domácích úkolů.
Přílohy
HW3.2019.specification.pdf
(125.73 KiB) Staženo 179 x
hw2.pdf
(100.71 KiB) Staženo 194 x
hw1.pdf
(85.39 KiB) Staženo 172 x
Lukaskub
Matfyz(ák|ačka) level I
Příspěvky: 4
Registrován: 25. 1. 2019 15:27
Typ studia: Informatika Bc.

Re: Úvod do strojového učení - testy + zkouška

Příspěvek od Lukaskub »

Já jenom doplním informace z aktuálního semestru - Jaro 2020/2021.

K zápočtu bylo tentokrát potřeba prezentovat dva malé domácí úkoly, vypracovat dva velké domácí úkoly a napsat dvě písemky.
Dva malé úkoly jsou v pohodě, většinou to jsou podobné věci, jako se berou na cviku, jenom to člověk musí trošku dotáhnout a odprezentovat.
Velké domácí úkoly ale byly docela velké a člověk si na ně chce vyhradit dost času. Jsou napůl fakt programování v R a napůl prezentace výsledků (textem) a je důležité obojí, takže to není jako jinde jenom odevzdat nějaký kód.
Písemky - první byla na cvikách během semestru a druhá na zkoušce. Ta první byla dost v pohodě, ale je fajn se na ní naučit, body se pak počítají do celkové známky.
Zkouška měla dvě části - písemnou, kde to byla písemka podobná jako minulé roky, a pak ústní, kde jsme prošli test a pak se doptala na pár věcí.

Obecně se do známky počítá všechno (oba úkoly, oba testy i ústní část), proto doporučuju vypracovat všechno včas a dobře, člověku to pak může pomoct, když toho u zkoušky moc neví.
Odpovědět

Zpět na „Ostatní“