Aprendizagem de Dados Simbólicos e/ou Numéricos Francisco de A.T. de Carvalho 1
Dados usuais 1/2 Ω = {1,, n} conjunto de indivíduos (população ou universo, amostra) As propriedades de cada indivíduo são descritas por variáveis: Y = {Y 1,, Y p } : conjunto de p variáveis O j : Domínio (conjunto dos possíveis valores) da variável de Y j 2
Dados usuais 2/2 Y i : Ω O i k x kj = Y j (k) k Ω, x kj = Y j (k) Matriz (ou tabela) de dados: X = ( x kj ) 3
Tipos de Variáveis 1/12 Y j é quantitativa (métrica, numérica): se O j (domínio) é idêntico ou está contido em R: O j R Exemplos de Domínios O j = R = (-, ) O j = R + = [0, ) O j = [a,b] = {x R a x b} onde - < a < b < 4
Tipos de Variáveis 2/12 Y j é quantitativa contínua se O j é um intervalo de R Exemplos: a) Y j é o peso de um adulto, com O j = [30, 250] R b) Y j é o lucro de uma empresa em um determinado ano, com O j = R c) Y j é a carga de um navio em toneladas, com O j = R + 5
Tipos de Variáveis 3/12 Y j é quantitativa discreta se O j é um conjunto finito ou infinito contável de valores de R Exemplos de Domínios O j = {ξ 1,,ξ M } R O j = {ξ 1, ξ 2, } R a) Ex: Y j :número de acidentes nas ruas de Recife na primeira semana de maio, com O j = {0, 1, 2, } b) Y j :número de rodas de um veículo, com O j = {2,,10} 6
Tipos de Variáveis 4/12 Y j é qualitativa (categórica) se O j (domínio) é finito e seus elementos são categorias sem significado numérico Y j é qualitativa nominal se O j não possui estrutura interna Dadas duas categorias x e y de O j, x = y ou x y Exemplo: Y j é marca de um carro, com O j = {Ford, Pegeout, Volkswagen} 7
Tipos de Variáveis 5/12 Y j é binária Y j (k) = 1 as vezes é interpretado como o individuo k tem a propriedade j se O j tem apenas duas alternativas as vezes codificada como 0 e 1 a) Exemplo: Y j é o sexo, com O j = {masculino (M), feminino (F)} b) Y j é a presença de asas, com O j = {0,1} 8
Tipos de Variáveis 6/12 Y j é qualitativa ordinal se existe uma ordem linear total entre as categorias de O j para a,b O j ou a <= b ou b <= a Exemplo: Y j é a qualidade de um produto, com O j = {insuficiente, pobre, regular,boa, excelente} 9
Tipos de Variáveis 7/12 Y j é qualitativa ordinal generalizada nem todo par de alternativas a, b O j pode ser comparado (ordem parcial) o sistema de pares ordenados a < b pode ser desenhado segundo um diagrama de tipo hierarquia, reticulado, rede nesse diagrama, dois níveis a, b verificam a < b se e somente se existe uma seqüência de ramos conectados que liga a à b 10
Tipos de Variáveis 8/12 Exemplo: Y j = nível educacional O j = {es = escola elementar; bs = contabilidade; gy = ginásio; ap = técnico; gs = científico; pe = pedagógico; un = universidade; it = instituto tecnológico} es gy bs pe gs ap un it 11
Tipos de Variáveis 9/12 Nesse exemplo: Uma flecha aponta de um tipo de instituição a para um tipo b (b < a) se alguém pode ser aceito por uma instituição de tipo b após ser graduado por uma instituição de tipo a 12
Tipos de Variáveis 10/12 Y j : variável taxonômica com domínio O j = {a, b, }; as categorias são ordenadas em uma hierarquia a) Cada categoria b O j é um nó da hierarquia; b) Uma categoria c é descendente de a (a é ancestral de c) se c < a; c) b é sucessor (descendente direto) de a se b < a e não existe outro d O j tal que b < d < a 13
Tipos de Variáveis 11/12 d) a é predecessor (ancestral direto) de b se b < a e não existe d O j tal que b < d < a e) A hierarquia contém uma única raiz f) Uma categoria f que não tem sucessor é chamada de folha; os outros são nós internos. 14
Tipos de Variáveis 12/12 Figura Plana Poligono Ovoide Triangulo Retangulo hexagono elipse circulo Y j : tipo da figura no plano O j = {triangulo, retângulo, hexágono, elipse, circulo, polígono, ovóide, figura plana} 15
Vetor de Dados Vetor de variáveis p-dimensional X Y 1 ' = M = (Y1, K,Yp ) O1 L Y p Vetor de de dados usuais O p x k x = X L x kp k1 ' ( k ) = M = ( xk1, K,xkp ) O1 O p 16
17 Matriz de Dados Matriz de Dados Matriz de dados usuais n x p ( ) ),, ( x x x x x x ~ p 1 ' p ' 1 np n1 kj 1 p 11 p n kj y y x x X K M L M M L = = = =
Tabela de dados usuais Indivíduo Idade Peso Sexo Altura ω 1 25 60 F 1.65 ω 2 ω 3 32 65 M 1.60 28 58 F 1.75 : : : : : 18
Dependência entre Variáveis 1/6 Diferentes tipos de dependências: lógica hierárquica estocástica Dependência Lógica Existe dependência lógica entre duas variáveis Y e Z se os valores de Z dependem logicamente ou funcionalmente dos valores de Y 19
Dependência entre Variáveis 2/6 Exemplo Y : peso de uma pessoa (Kg) Z : altura de uma pessoa (cm) r 1 : se Y 55 então Z 180 r 2 : Y [0,55] Z [0,180] r 3 : se [peso 55] então [altura 180] 20
Dependência entre Variáveis 3/6 Dependência Hierárquica Uma variável Z depende hierarquicamente de uma variável Y se o conjunto O z de valores z para Z é especificado em dependência dos valores y Y Exemplo Variável mãe Y : tipo de comercio varejista O Y : {loja de carros, loja de computador, } 21
Dependência entre Variáveis 4/6 Variável filha Z : atacadista, cujo domínio é: se y = loja de carros então O Zcarro = {FORD, FIAT, } se y = loja de comput. então O Zcomp = {IBM, } se y = mantimentos então O zmant = {todos os agricultores locais} OY 64444444 744444448 Carros Computadores Mantimentos OZcarro OZcomp. OZmant. 14444444 244444443 O Z 22
Dependência entre Variáveis 5/6 Dependência Hierárquica Caso especial: Z não faz sentido (não aplicável) para algumas categorias y de Y Y : sexo O Y : {masculino, feminino} Z : número de crianças O Zfem = {0, 1, 2, } O zmasc = {não aplicável} = {NA} OY 64444 44 74444448 masculino feminino O = {NA} OZfem = {0,1,2, K 14444 44 24444443 Zmasc } O Z 23
Dependência entre Variáveis 6/6 Dependência Estocástica p variáveis aleatórias Y 1,, Y p são chamadas estocásticamente independentes se P(Y B j O j, j = 1, p 1 B 1, K,Yp Bp) = P(Yj B j) j= 1 24
Dados Simbólicos 1/2 Dados simbólicos informações complexas, expressas por intervalos, conjuntos, histogramas, distribuições de probabilidade. Situações onde aparece esse tipo de dados Dados simbólicos para indivíduos (objetos de primeira ordem) Y j : Tempo de estudo diário Y j (k) = [0,6] (em horas) Y j (k) = (nada(0.5), uma(0.4),>uma(0.10)) 25
Dados Simbólicos 2/2 Dados simbólicos para classes de indivíduos (objetos de segunda ordem, objetos agregados) Y j : Instituições bancárias de uma cidade Y j (k) = {Banco do Brasil, Caixa, Itaú, Bradesco} Y j : Fração de votos por partido político e por estado Y j (k) = {(A, 0.5), (B, 0.2), (C, 0.3)} Y j : Níveis de cinza em uma região de uma imagem Y j (k) = Γ(20,30) 26
Tipos de Variáveis Simbólicas Notação. Y j : variável simbólica E : conjunto de objetos O j : Domínio de Y k E : objeto 27
Variáveis Multivaloradas Uma variável Y Multivalorada é uma função Y j : E B =P(O j ) Y j (k) U P(O j ) P(O i ): conjunto de todos os subconjuntos de O j Em muitas situações U = deve ser excluido No caso usual, y(k) =1 28
Variáveis Multivaloradas Categóricas Variáveis Multivaloradas nominais: U subconjunto de valores não ordenados Sexo(k) = {masculino, feminino} Variáveis Multivaloradas ordinais: U subconjunto de valores ordenados Grau de instrução(k) = {primário, secundário, superior} 29
Variáveis Multivaloradas Quantitativas Variáveis Multivaloradas quantitativas Y: Numero de Acidentes Semanais nos 3 principais bairros de uma cidade Y(k) = {20, 10, 15} 30
Variáveis Multivaloradas Quantitativas Variáveis Multivaloradas de Tipo Intervalo: U = Y(k) = [α, β] é um intervalo de R ou é um intervalo com respeito a uma determinada ordem < em O Salários(k) = [200, 7000], k é uma empresa 31
Variáveis Modais Uma variável Modal Y j é uma função Y j : E B = M(O j ) k (U(k), π(k)) onde π(k) é uma medida ou uma distribuição (de freqüências, de probabilidade, de pesos) definida no domínio O j de Y j U(k) O j é o suporte de π no domínio O j M(O j ) é uma família de medidas não negativas definidas em O j 32
Exemplo C = {C 1, C 2,, C 10 } os 10 centros da UFPE Y : altura dos funcionários no centro C i Histograma das alturas 0,60 0.40 0,20 1.55 1.60 1.65 1.70 1.75 Uma distribuição normal N(168,48.4 ) com média 168 e variância 48.4 33
Vetor de Dados Simbólicos Vetor de de dados simbólicos x u ξ = X L ξup u1 ' ( u ) = M = ( ξk1, K, ξkp ) B1 B p 34
Matriz de Dados Simbólicos Matriz de dados simbólicos n x p X = ( ξ ) kj n p = ξ M ξ 11 n1 L ξ kj L ξ ξ 1 p M np = ξ M ξ ' 1 ' p = ( y1, K, y p ) 35
Tabela de Dados Simbólicos 1/2 Conjunto de objetos E = {a 1, a 2, a 3, a 4 }: 4 cidades da região metropolitana Conjunto de variáveis simbólicas Y 1 : população (mínimo e Maximo nos anos 90-95) B 1 : intervalos de R + = O 1 Y 2 : espectro dos partidos políticos em uma cidade B 2 : distribuições de freqüências de O 2 = {Democratas(D), Conservadores(C), Socialistas(S)} 36
Tabela de Dados Simbólicos 2/2 Y 3 : grandes instituições bancárias em uma cidade B 3 : subconjuntos de O 3 = {BB, Caixa, Itaú, Bradesco} classe População Espectro partidário Bancos a 1 [80, 100] ( D 0.4 C 0.3 S0.3) {BB, Caixa} a 2 [100, 130] ( D 0.1 C 0.3 S0.6) {Caixa, Itaú} a 3 [8, 10] ( D 0.3 C 0.5 S 0.2) {Bradesco} a 4 [10,13] ( D 0.3 C 0.1 S 0.6) {BB, Bradesco} 37