Número: Nome:

Número: Nome: -------------------------------------------------------------------------------------------------------------- INSTITUTO SUPERIOR TÉCNICO Sistemas de Apoio à Decisão Exame: 2 6 Julho 2009 --------------------------------------------------------------------------------------------------------------. (6 pts) Algumas perguntas fáceis para começar ) (2 pts) Indique quais das hipóteses estão correctas para cada uma das seguintes questões (podem existir mais do que uma correcta e todas devem ser assinaladas nesse caso): a. (0,5 pts) Num esquema de dados multidimensional, os elementos essenciais são:. só as tabelas de factos. 2. tabelas de factos e surrogate keys. 3. tabelas de factos e de dimensões. 4. só as hierarquias. Solução: 3 b. (0,5 pts) As interrogações de dados OLAP típicas envolvem:. a soma e média como funções de agregação. 2. os valores mínimo e máximo como funções de junção. 3. a soma e média como funções de junção. 4. os valores mínimo e máximo como funções de agregação. Solução: e 4 c. (0,5 pts) O operador CUBE:. retorna uma vista dos dados segundo três dimensões. 2. retorna todos os agrupamentos possíveis das dimensões. 3. permite descer numa hierarquia. 4. permite subir e descer numa hierarquia. Solução: 2 c. (0,5 pts) Um processo ETL suporta:. a extracção de dados da DW e carregamento na área de retenção.

Número: Nome: 2 2. a extracção de dados dos sistemas operacionais e carregamento na DW. 3. a extracção de dados da área de retenção e carregamento nos sistemas operacionais. 4. a extracção de dados da DW e carregamento nos sistemas fonte. Solução: 2 2) (4 pts) Assinale as seguintes frases como verdadeiras (V) ou falsas (F). Cada resposta correcta corresponde a uma cotação de + valor. Resposta errada -0,5. Se não responder, a cotação é 0. (a) Os algoritmos Fp-growth e Apriori conduzem a regras de associação diferentes False, the rules are the same (b) Se x e y são independentes então P(y x)=p(x y) False, P(y x)=p(y), P(x y)=p(x). (c) Dada uma entrada de dimensão 4, uma rede neuronal com uma função de activação linear é mais potente que uma rede RBF. False, uma rede neuronal com uma função de activação linear can only separate linear problems. (d) Dada uma entrada de dimensão 4, uma rede neuronal com uma função de activação linear é mais potente que que vector support machines False, uma rede neuronal com uma função de activação linear can only separate linear problems.

Número: Nome: 3 2. (3 pts) DW, OLAP e ETL Considere o seguinte modelo em estrela de uma DW: Aluno(alunoId, nome) Data(dataID, dia, mes, semestre, ano) Disciplina(disciplinaId, nome, departamento) Assiduidade(alunoId, dataid, disciplinaid, presenca), em que as chaves primárias estão sublinhadas e as estrangeiras estão em itálico. (a) (v) Escreva uma interrogação SQL que devolva o número total de faltas por aluno (identificado pelo seu número e nome) e por semestre (dentro do ano lectivo). Solução: Select A.alunoId, A.nome, d.ano, d.semestre, count(*) From Aluno a, Data d, Assiduidade as Where a.alunoid = as.alunoid And d.dataid = as.dataid Where presença = 0 Group by a.alunoid, a.nome, d.ano, d.semestre (b) (v) Suponha que o valor pedido na alínea anterior é muito requisitado, o que levaria à interrogação da alínea (a) ser frequentemente executada. Proponha uma alteração ao modelo de dados de modo a ter essa informação pré-calculada. Criaria uma nova tabela de factos com informação agregada sobre o número de faltas. Ficaria com: FaltasPorAlunoPorSemestre(alunoId, semestreid, faltas) Aluno(alunoId, nome) Semestre(semestreId, semestre, ano)

Número: Nome: 4 (c) ( v) Indique quais as hierarquias existentes neste modelo. Qual o número de tuplos retornado pelo operador CUBE? Hierarquias: 2 Data: dia<mes<semestre<ano Disciplina: nome < departamento Número de tuplos = número de cuboids = π i= n (Li + ) = (+).(4+).(2+) = 2*5*3 = 30 3. (4 pts) 3. (4 pts) PCA

Número: Nome: 5 Suponha que tem a seguinte: x i = 9, 5 9, 0 8, 0 8 (a) (2 pts) Qual é a matriz da transformação K-L? First we have to determine the covariance matrix (See homework 3) c ij = n k= (k ( x ) i m i ) x (k) j m j n ( ) We divide n- for sapmle, n for population (be agreement we divide by n-, i tis as well o.k. to divide by n) C = c c 2 c 2 c 22 First we have to compute the eiganvalues The system has to become linear depentable (singular) λi C = 0 The determinant has to become zero we know c 2 =c 2, m = (+5+0+0)./4=4, m 2 = (9+9+8+8)./4=8.5 c =( (-4)^2+(5-4)^2+(0-4)^2+(0-4)^2 )./3=20.67 c 2 =c 2 = ( (-4)*(9-8.5)+(5-4)*(9-8.5)+(0-4)*(8-8.5)+(0-4)*(8-8.5) )./3=-0.67 c 22 = ( (9-8.5)^2+(9-8.5)^2+(8-8.5)^2+(8-8.5)^2 )./3=0.33 20.67 0.67 C = 0.67 0.33

Número: Nome: 6 0 = λ 0 20.67 0.67 0 λ 0.67 0.33 λ 20.67 0.67 0 = 0.67 λ 0.33 λ 2 2λ + 6.37 = 0 λ =0.3 λ 2 =20.69 For λ =0.3, let be u = then we have to determine u 2 20.36 0.67 0.67 0.02 u = 0 2 20.36 = 0.67 u 0.67 0.02 2 (Approximate results due to rounding errors, rounding errors were not punished) u =[u,u 2 ]=[,30.5238] (exact result) Normalization u =[u,u 2 ]=[ 0.0327342, 0.999464] For λ 2 =20.69, let be u = then we have to determine u 2 0.02 0.67 0.67 20.35 u = 0 2 0.028345 0.67 = u 0.67-20.028 2 (exact..) u =[u,u 2 ]=[, 0.032757] (exact result) Normalization

Número: Nome: 7 u =[u,u 2 ]=[ 0.999446, 0.032757] K-L transformation is defined be the matrix 0.0327 0.99 0.999 0.0327 (b) (2 pts) Qual dos vectores próprios (eigenvectors) é mais significante? O critério de Kaiser é aplicável? λ =0.3 <, means this dimension can be reduced u

Número: Nome: 8 4. (2 pts) Bayes 90% das mulheres que realmente sofrem de cancro da mama irão ter um resultado positivo na mamografia (quer isto dizer que o teste indica que a mulher sofre de cancro). % das mulheres que na realidade não sofrem de cancro da mama irão ter um resultado positivo na mamografia (querendo dizer que elas foram erradamente diagnosticadas com o cancro). 5% das mulheres com mais de 55 anos que são examinadas sofrem de cancro da mama. (2 pts) No caso de uma mulher que tem um teste positivo na mamografia, repetir o teste numa segunda mamografia, que também dá um resultado positivo, use o pressuposto Naïve de Bayes para calcular a probabilidade que a mulher sofre de cancro da mama dados os resultados dos 2 testes. P(c)=0.05, P( c)=0.95, P(m c) = 0.90, P( m c) = 0. P(m c) = 0., P( m c) = 0.89. P(c m)=αp(m c) P(m2 c)p(c)=α 0.0405 P( c m)=αp(m c)p(m2 c)p( c)=α0.0495 Normalization: P(c m)= 0.77892

Número: Nome: 9 5. (2 pts) Dado o conjunto de dados x j = 0 9, 9, 2 9, 7 5 5 com 4 pontos, k=2 e os centroids iniciais c = 2 8,c 2 = 7 5 4. Quais são os valores dos centroids c,c 2 depois do algoritmo de clustering k-mean ter convergido, usando a função de distância Euclideana? d(c,x ) < d(c 2,x ) d(c,x 2 ) < d(c 2,x 2 ) d(c,x 3 ) < d(c 2,x 3 ) d(c,x 4 ) > d(c 2,x 4 ) c = 9 3,c 2 = 7 5 5. d(c,x ) < d(c 2,x ) d(c,x 2 ) < d(c 2,x 2 ) d(c,x 3 ) < d(c 2,x 3 ) d(c,x 4 ) > d(c 2,x 4 ) Converged.

Número: Nome: 0 6. (3 pts) Neuronal Network (a) (2 pts) Derive uma regra de treino de gradiente descendente (gradient descent training rule) para uma única unidade com saída o, em que: n o = 5 w i σ(x i ) i= 0 o= 5*w 0 σ(x 0 )+5*w σ (x )+ 5*w 3 σ (x 3 )+ +5*w n σ (x n ) σ(x) = + e ( 3x) E = (t d o d ) (t d 5w i σ(x i )) w i d D w i E = (t d o d )( 5σ(x i )) w d D (b) ( pts) Dados n=2, os pesos w={w 0 =0.,w =0. }. Faça um gradiente descendente estocástico com η= para para o vector de entrada x={2,0}={x 0 =2,x =0} e alvo (target) t={}, determine Δw o= 5*w 0 σ(x 0 )+5*w σ (x ) o= 5*0.*(./(+exp(-3*2)))+ 5*0.*(./(+exp(-3*0))=0.74876 Δw i = η(t o)5σ(x i ) Δw = (-0.72629)*5*(./(+exp(-3*2))=.3652 Δw 2 = (-0.72629)*5*(./(+exp(0)))=0.68427