Latent semantic indexing a SVD-rozklad

faymon
Matfyz(ák|ačka) level I
Příspěvky: 6
Registrován: 15. 6. 2011 09:59
Typ studia: Informatika Mgr.
Kontaktovat uživatele:

Latent semantic indexing a SVD-rozklad

Příspěvek od faymon »

Nebyl někdo na přednášce když se mluvilo o LSI a SVD-rozkladu, případně rozumí tomu někdo?
Ještě bych pochopil vizi LSI, ale ten SVD-rozklad se mi zdá podzřelý. Zkoušel jsem vypočítat matice U, S, V co jsou ve skriptech na straně 103, no zatím jsem se nedopočítal. Na druhou stranu v těch skriptech jsou údajně chyby a ta matice je zbytečně velká, tak jsem zkoušel následující zadání (resp. matici):

A = \begin{pmatrix} 3 & 1 & 1\\ -1 & 3 & 1 \end{pmatrix}

Postup ke zjištění matice S:
Vyrobime transponovanou matici A, tj. A^T = \begin{pmatrix} 3 & -1 \\ 1 & 3 \\ 1 & 1 \end{pmatrix}

Spočítáme A * A^T:
A * A^T =  \begin{pmatrix} 11 & 1 \\ 1 & 11 \\\end{pmatrix}

Má platit: \begin{pmatrix} 11 & 1 \\ 1 & 11 \\\end{pmatrix} * \begin{pmatrix} x_1 \\ x_2 \\\end{pmatrix} = \lambda *  \begin{pmatrix} x_1 \\ x_2 \\\end{pmatrix}
Dá se přepsat jako soustava rovnic:

11 x_1 + x_2 = \lambda * x_1
x_1 + 11 x_2 = \lambda * x_2

Úprava na

(1)
(11-\lambda) x_1 + x_2 = 0
x_1 + (11-\lambda ) x_2 = 0

Spočítáme \begin{pmatrix} 11-\lambda & 1 \\ 1 & 11-\lambda \end{pmatrix} = 0
Tj. (11-\lambda) * (11-\lambda) - 1 * 1 = 0,
121-22\lambda+\lambda^2-1 = 0,
\lambda^2-22\lambda+120 = 0
\sqrt{D} = 2
\lambda_{1,2} = \dfrac{22 \pm 2}{2}
\lambda_1 = 12, \lambda_2 = 10.

Matice S vznikne tak, že na diagonále budou odmocniny z lambd, v klesajícím pořadí, tj.

S = \begin{pmatrix} \sqrt{12} & 0 \\ 0 & \sqrt{10} \end{pmatrix}

Výpočet matice U:

Dosadíme lambdy do rovnic (1):
(11-10) x_1 + x_2 = 0
x_1 + (11-12) x_2 = 0

Vychází:
x_1 = -x_2
-x_2 = -x_1

Za x_1 i x_2 se zvolilo 1.

Máme matici \begin{pmatrix} 1 & 1 \\ 1 & -1 \end{pmatrix}

Dál se má provádět jakási normalizace a postupně se spočtou řádky matice U.

Výpočet V
Analogicky jako u U, tak se bez té normalizace nedá dobrat ani jedné ze singulárních matic.


Předem díky za každou radu.
Odpovědět

Zpět na „NDBI010 Dokumentografické informační systémy“