Aprendizagem de Dados Simbólicos e/ou Numéricos Francisco de A.T. de Carvalho
Usuais / Notação Y: variável categórica (nominal ou ordinal) ou quantitativa discreta E {,, n} : conjunto de n itens Y(), E : valor de Y em y (Y(),, Y(n)) : vetor de valores de Y para os n elementos 2
Usuais 2/ Notação ξ,, ξ t conjunto dos t diferentes valores tomados por Y em E (t n) Freqüência observada n i : #{ E Y() ξ i }, i,, t Distribuição de Freqüências Lista de pares (ξ,n ),, (ξ t,n t ) 3
Usuais 3/ Freqüência Relativa f i n i / n, i,, t Distribuição de Freqüências: Representação Variáveis nominais (valores não ordenados): setores, cujas áreas são proporcionais a n i 4
Usuais 4/ Distribuição de Freqüências: Representação Variáveis ordinais ou quantitativas discretas: diagrama de barras, onde cada par (ξ i,n i ) é localizado na coordenada ξ i do eixo horizontal e cuja altura é proporcional a n i Variáveis quantitativas contínuas: muitos valores distintos ξ i agrupados em classes de valores 5
Usuais 5/ Distribuição de Freqüências: Representação Variáveis quantitativas contínuas: Seja a ordenação dos ξ i em ordem crescente: ξ () ξ (t) Seja uma partição I {I,, I m } do intervalo [ξ (), ξ (t) ], onde I,, I m são intervalos contíguos de [ξ (), ξ (t) ] 6
Usuais 6/ Distribuição de Freqüências: Representação Variáveis quantitativas contínuas: Seja m j #{ E Y() I j }, j,, m Distribuição de Freqüências Lista de pares (I,m ),, (I j,m j ) 7
Usuais 7/ Distribuição de Freqüências: Representação Variáveis quantitativas contínuas: histograma: é uma representação gráfica em que cada par (I j, m j ), j,, m, é representada por uma barra vertical cuja base é o intervalo I j e cuja área é proporcional a m j 8
Usuais 8/ Distribuição de Freqüências: Representação Variáveis quantitativas contínuas: Função de distribuição empírica F y F y ( ξ ) n # { E Y ( Distribuição de Freqüências Acumuladas Lista de pares (ξ,f y (ξ )),, (ξ t, F y (ξ t )) ) ξ } 9
Usuais 9/ Estatísticas Média amostral Moda Valor + freqüente Variância s 2 y y n n n n i y i ( y ) i y i 2 0
Usuais 0/ Estatísticas Desvio-padrão 2 s y s y Coeficiente de Variação s y y 00
Usuais / Freqüência Observada Frequencia observada O y é uma função O : R > y N 0 tal que O y ( ξ ) # { E Y ( ) ξ } 2
Usuais 2/ Freqüência Observada Exemplo: y (4,7,6,2,6) O y ( ξ ) se ξ {2,4,7} 2, se ξ 6 0, nos outros casos 3
Usuais 3/ Freqüência Observada Número de exemplos n i O ( ξ ), y i i, K.l Frequencia acumulada F ξ ξ y ( ) O y( j ) n ξ ξ j ξ j 4
Usuais 4/ Freqüência Observada média y n l j O ξ y ( j ) ξ j Variancia s l 2 2 y O y ( ξ j )( ξ j y ) n j 5
Simbólicos / Tabela de Dados Variáveis simbólicas: Y,..., Y p Itens: E {,..., n} Cada célula (,j) da tabela de dados contém o valor de Y j para ξ ( ), j Y j, K, n j, K, p 6
Simbólicos 2/ Tabela de Dados Descrição simbólica de E (linha da tabela) ' d ( ξ, K, ξ p ),, K, n Extensão virtual de d vir( d ) { x x ξ K ξ p } 7
Simbólicos 3/ Exemplo Y Y 2 {a,b} {3} 2 {b,c} {2,3) 3 {b} {,2) 4 {c} {,3) 5 {a} {,3) 8
Simbólicos 4/ Exemplo Variáveis Simbólicas: Y e Y 2 D e D 2 : domínios de Y e Y 2 E {,2,3,4,5}: conjunto de itens B P(D ) e B 2 P(D 2 ) Descrição da linha : d ({ a,b },{ 3 }) ' 9
Simbólicos 5/ Exemplo Descrição da linha : d ({ a,b },{ 3 }) Extensão virtual de d vir ( d ) { x { a,b } { 3 }} {( a,3 ) ',( b,3 ) ' } ' 20
Simbólicos 6/ Distribuição de Frequencias: variáveis multivaloradas (categóricas ou quantitativas) Frequencia Observada Dada uma variável multivalorada Z, a freqüência observada O z é uma função que associa a cada valor ξ D z a soma de π(ξ; ) para E. 2
Simbólicos 8/ Distribuição de Frequencias: variáveis multivaloradas (categóricas ou quantitativas) Frequencia Observada ξ Z ξ D E ξ D # vir ( d Z O ( ) Z # { x vir ( d ) x [ ) Z ] ξ } n 22
Simbólicos 9/ Distribuição de Frequencias: variáveis multivaloradas (categóricas ou quantitativas) Distribuição da Frequencia Observada lista de pares ξ O ( ξ ), ξ D, Z ( ) Z Frequencia Observada relativa freq Z ( ξ ) OZ ( ξ n ) 23
Simbólicos 0/ Exemplo O Y (a) E #{ x vir( d ) x vir( d ) a} + 0 2 + 0 + 2 2 2 O Y (b) E #{ x vir( d ) x vir( d ) b} 0 + 2 + + 0 2,5 24
Simbólicos / Exemplo #{ x vir( d ) } 0 0 0 O Y (c) x c + + + 0, 5 ( ) E vir d 2 2 fy ( ξ ) 2 0,500 4 (,5 ) 0,375 4 ( 0,5 ) 0,25 4 se se se ξ a ξ b ξ c 25
Simbólicos 2/ Outras medidas para variáveis multivaloradas numéricas Distribuição acumulada F Z ( ξ ) n ξ j ξ O Z ( ξ j ) Média z l n j O Z ( ξ j ) ξ j 26
Simbólicos 3/ Outras medidas para variáveis multivaloradas numéricas Desvio padrão s l 2 Z OZ ( ξ j )( ξ j z ) n j 27
Simbólicos 4/ Exemplo 2 Variável Y 2 : D 2 {, 2, 3} O Y2 () 0,5 O Y2 (2) 2,0 O Y2 (3),5 função de densidade (f ) Função de Distribuição (F) f Y ( e i ) 0,25 0,500 0,375 se se se e i e e i i 2 3 F Y ( e i ) 0 0,25 0,625 se se se se e < ei 2 e e i i i 3 < 2 < 3 28
Simbólicos 5/ Exemplo 2 y2 {(0,5 ) + (2 2) + (,5 3)} 4 2 S Y 2 {[( (4 ) + (3 2,25) 2,5} 2,25) 2 0,583 0,5] + (2 2,25) 2,25 2 2,0] + S Y 0,604 2 0,764 29
Simbólicos 6/ Variável intervalo Seja Z uma variável intervalo, para cada E temos: Z() Hipóteses: [ z ], z (i) E é selecionado com mesma probabilidade (/n) (ii) Os valores dos x [z] para x vir(d ) são uniformemente distribuídos no intervalo Z() [ z, ] z 30
Simbólicos 7/ Variável intervalo Pr( x[ z ] e x vir ( d )) e z 0 z z se se se e < z z e z e < z 3
Simbólicos 8/ Variável intervalo Definição: A função de distribuição empírica de Z, expressa por F Z, é considerada como uma mistura de n distribuições uniformes definidas nos intervalos Z() [ z ], para E., z A partir da expressão x e x vir ( d )), obtemos Pr( ] [ z 32
33 Simbólicos 9/ Simbólicos 9/ Variável intervalo Derivando a expressão anterior em e, obtemos a função de densidade empírica de Z n e e n e F Z e Z } z #{ z z z ) ( ) ( + Z e Z z z Z l Z l n e f )) ( ( onde, )) ( ( ) ( ) (
Simbólicos 20/ Variável intervalo Média Amostral: z + e f Z ( e) de K n E z + 2 z. Variância Amostral: S 2 Z + 2 ( e z ) f ( e) de Z 34
35 Simbólicos 2/ Simbólicos 2/ Variável intervalo Variância Amostral: 2 2 2 2 2 ) ( 4 ) ( 3 + + + E E Z z z n z z z z n S
Simbólicos 22/ Variável intervalo Exemplo: E {,...,8} Z(E){[0,2];[,3];[.5,2.5];[2,4];[3.5,5];[4.5,5.5];[5,7]; [6.5,7.5]} Z(E) [0,2] [,3] [.5,2.5] [2,4] [3.5,5] [4.5,5.5] [5,7] [6.5,7.5] z + z 2 2 2 3 4,25 5 6 7 Média Amostral 3,78 Variância Amostral 4,82 36
Simbólicos 23/ Variável intervalo Histograma Seja I [min { z E}, max { z E} ] um intervalo que contém os valores de Z(). Considere uma partição de I em m subintervalos disjuntos I j [u j-,u j [ para j,...,m- e I m [u m-,u m ] para jm. 37
Simbólicos 24/ Variável intervalo Histograma Então, o Histograma associado a partição {I,..., I m } é uma representação gráfica da distribuição de freqüência {(I j, p j )} da variável Z, onde p j representa a probabilidade da classe I j. p j l ( ) ( Z I n l( Z( )) E j ). 38
Simbólicos 25/ Variável intervalo Exemplo: E {,...,8} () Z(E){[0,2];[,3];[.5,2.5];[2,4];[3.5,5];[4.5,5.5]; [5,7]; [6.5,7.5]} (2) I{0.0,7.5} (3) Considere m partições de tamanho (7.5-0)/8 0.938 39
Simbólicos 26/ Variável intervalo Exemplo: I [0, 0.938[ ; I 2 [0.938,.875[ ;...; I 8 [6.563, 7.5] (4) Cálculo dos p j s. I 2 [0.938,.875[ p 2 n l([0,2] [0.938,.875[) l([0,2]) + l([,3] [0.938,.875[) l([,3]) + l([.5,2.5] [0.938,.875[) l([.5,2.5]) 40
Simbólicos 27/ Variável intervalo Exemplo: (4) Cálculo dos p j s. p 0.938 + 8 2 0.875 + 2 0.625 {0.469} 8 2 0.06 4
Simbólicos 28/ Z(E){[0,2];[,3];[.5,2.5];[2,4];[3.5,5];[4.5,5.5];[5,7];[6.5,7.5]} I Inf. Sup O j p j pm j Média Var. f j I 0.000 0.938 0.469 0.06 0.47 0.03 0.64 0.06 I2 0.938.875.28 0.6.4 0.23 0.9 0.7 I3.875 2.83.563 0.20 2.34 0.46 0.4 0.2 I4 2.83 3.750 0.729 0.09 3.28 0.30 0.02 0.0 I5 3.750 4.688 0.938 0.2 4.22 0.49 0.02 0.3 I6 4.688 5.625.333 0.7 5.6 0.86 0.3 0.8 I7 5.625 6.563 0.53 0.07 6.09 0.40 0.35 0.07 I8 6.563 7.500.56 0.4 7.03.02.52 0.5 8.0.0 3.784 4.92 42
Simbólicos 29/ Histograma para variável Z Variável intervalo fj 0.2 0. 0.0 0,938,875 2,83 3,750 4,688 5,625 6,563 7,5 43
Simbólicos 30/ Variável categórica modal Variável Z, objeto u valores possíveis: ξ com freqüências p u, p u 0 e Σ p u Freqüência observada O Z ( ξ ) u E π Z ( ξ ;u ) u E p u 44
Simbólicos 3/ Variável categórica modal Freqüência observada Propriedades K O Z ( ξ ) K u E p u K u E p u n Freqüência relativa freq Z ( ξ ) O Z ( ξ n ) 45
Simbólicos 32/ Variável categórica modal Exemplo Z: fonte de energia D Z : {gas, eletricidade, outros} 46
Simbólicos 33/ Variável categórica modal Exemplo O Z (gas)0.87+...+0.763,7 O Z (elet)0.05+...+0.0.35 O Z (outros)0.08+...+0.30.48 gas 0.87 0.7 0.83 0.76 elet 0.05 0.0 0.09 0. outros 0.08 0.9 0.08 0.3 u E OZ ( ξ ) 4 47
Simbólicos 34/ Variável categórica modal Exemplo freq Z (gas) 3,7/4 0.7925 freq Z (elet) 0.35/4 0.0875 freq Z (outros) 0.48/4 0.2 gas 0.87 0.7 0.83 0.76 elet 0.05 0.0 0.09 0. outros 0.08 0.9 0.08 0.3 u E freqz ( ξ ) 48
Simbólicos 35/ Variável intervalo modal Variável Z Objeto u, u,..., n Z(u) ξ u [a u,b u ) com probabilidade p u,,...,s u I[min,u E a u, max,u E b u ]: intervalo que cobre os valores observados em Z 49
Simbólicos 36/ Variável intervalo modal Seja uma partição de I em r sub-intervalos I g [ξ g-, ξ g ), g,..., r- e I r [ξ r-, ξ r ) Freqüência observada O Z ( g ) u E π Z ( g;u ) 50
Simbólicos 37/ Variável intervalo modal Freqüência observada π Z ( g;u ) Z ( g ) Z( ;u ) I Z( ;u ) g p u Z(g): os intervalos Z(;u)[a u, b u ) cuja intersecção com I g é não vazia, para um dado u 5
Simbólicos 38/ Variável intervalo modal Cada termo representa a porção de Z(;u) que é coberta por I g, isto é, a proporção de p u que pertence a I g Freqüência relativa Propriedades r g O ( freq g ) Z ( g ) Z n O Z ( g ) n r g freq ( g ) Z n 52
Simbólicos / Entrada: Matriz de Dados Simbólicos 53
Simbólicos 2/ Comando STAT 54
Simbólicos 3/ Comando STAT: Seleção de Variáveis 55
Simbólicos 4/ Comando STAT: Seleção de Variáveis 56
Simbólicos 5/ Comando STAT: Parâmetros 57
Simbólicos 6/ Comando STAT: Saída 58
Simbólicos 7/ Comando STAT: Saída 59
Simbólicos 8/ Comando STAT: Saída 60
Simbólicos 9/ Comando STAT: Saída 6
Simbólicos 0/ Comando STAT: Parâmetros 62
Simbólicos / Comando STAT: Parâmetros 63
Simbólicos 2/ Comando STAT: Parâmetros 64
Simbólicos 3/ Comando STAT: Saída 65
Simbólicos 4/ Comando STAT: Saída 66
Simbólicos 5/ Comando STAT: Saída 67
Simbólicos 6/ Comando STAT: Parâmetros 68
Simbólicos 7/ Comando STAT: Saída 69
Simbólicos 8/ Comando STAT: Saída 70
Simbólicos 9/ Comando STAT: Saída 7