Consumo de Álcool por Estudantes

Tamanho: px
Começar a partir da página:

Download "Consumo de Álcool por Estudantes"

Transcrição

1 Universidade Federal do Rio de Janeiro Escola Politécnica COC361 - Inteligência Computacional Consumo de Álcool por Estudantes Professor: Alexandre Evsukoff Período: 2016/2 Estudantes: Rafael Gonçalves Damasceno DRE: Rodrigo Carvalho Ribeiro de Jesus DRE: Rio de Janeiro, RJ 11 de dezembro de 2016

2 Sumário Introdução 2 Propósito do Documento 2 Escopo do Projeto e formulação do problema 2 Apresentação da Tecnologia 2 Metodologia 3 Resultados 5 Regressão Logística 5 Bayesiano Multinomial 6 Redes Neurais 7 Duas camadas intermediárias com 2 neurônios cada 8 Duas camadas intermediárias com 5 neurônios cada 9 Duas camadas intermediárias com 10 neurônios cada 10 Duas camadas intermediárias com 20 neurônios cada 11 Support Vector Machine (SVM) 11 Linear 12 Polinomial 13 Função de Base Radial (RBF) 14 Árvore de Decisão 14 Sem Limite 16 Profundidade 3 17 Profundidade 5 18 Floresta Aleatória árvores árvores 20 Avaliação e Conclusões 21 Pesquisa Bibliográfica 23 1

3 1. Introdução 1.1. Propósito do Documento Este documento representa o relatório final da disciplina Inteligência Computacional [COC361], ministrada pelo professor Alexandre Evsukoff, no período 2016/2. O objetivo deste relatório é documentar a classificação do dataset previamente selecionado para o relatório preliminar através de diversos modelos lineares e não-lineares, explicitando as escolhas feitas e uma análise comparativa dos resultados. Além disso, procura-se discutir os resultados obtidos neste relatório e como eles se relacionam com os encontrados utilizando elementos da análise estatística no relatório preliminar. O documento expõe a solidificação do entendimento dos conceitos e técnicas utilizadas dentro do propósito da disciplina. 1.2 Escopo do Projeto e formulação do problema Inspirado no contexto de consumo de álcool entre estudantes, o projeto elaborado faz uso de um dataset disponibilizado no portal UC Irvine Machine Learning Repository, o mesmo utilizado no relatório preliminar. Esse dataset também traz informações sobre a vida doméstica dos alunos e sobre seu desempenho acadêmico. O projeto, desenvolvido em Python, tem como objetivo analisar os dados em relação ao consumo de álcool e as características pertencentes aos estudantes entrevistados. Dessa forma, espera-se realizar a classificação dentro deste dataset e desenvolver a capacidade de predição do consumo de álcool de acordo com as características dos atributos envolvidos. 2. Apresentação da Tecnologia Para desenvolver o escopo do projeto foi decidido utilizar a linguagem Python, devido não só à sua versatilidade mas também por ser uma linguagem com a qual os participantes do projeto já tinham trabalhado anteriormente. Além disso, é uma linguagem amplamente usada por cientistas de dados do planeta inteiro, o que gera uma grande disponibilidade de bibliotecas voltadas para o assunto e também conteúdo de suporte a essas bibliotecas. Dessa forma, foram selecionadas algumas dessas bibliotecas para auxiliar no trabalho de data analysis, data mining e machine learning. Dessas bibliotecas, podemos destacar: matplotlib - biblioteca para gerar gráficos a partir do Python. pandas - estruturas específicas para análise de dados. numpy - pacote de computação numérica otimizado para processos que envolvam arrays e matrizes. scipy - rotinas para trabalhar em diversas áreas como integração numérica, otimização e processamento de sinais. scikit-learn - ferramentas para análise e mineração de dados. patsy - ferramentas para utilização em modelos estatísticos. 2

4 Além dessas bibliotecas, usamos também o software ipython, um interpretador interativo que traz diversas melhorias em relação ao interpretador padrão do Python, podendo ser destacadas a possibilidade de syntax highlighting, guardar comandos entre sessões, autocomplete, e também de exportar os comandos usados em uma determinada sessão para um arquivo externo. A decisão por usar um interpretador está relacionada com a possibilidade de acompanhar o resultado diretamente quando o comando é inserido, o que facilita a exploração dos dados. 3. Metodologia O dataset escolhido possui 1044 registros, distribuídos em 649 registros relacionados à disciplina de português e 395 à matemática. Após o relatório preliminar, no qual foi realizada uma análise estatística nos dois arquivos separadamente, procurou-se juntar os dois arquivos para o tratamento do relatório final. Entretanto, haviam 382 registros de intercessão entre os arquivos, de forma que só seriam adicionado 13 registros, e perderíamos informações como as notas dos alunos. Dessa forma, para o trabalho de classificação foi decidido utilizar o arquivo relacionado à disciplina de português, por possuir um número maior de registros. Dentre as variáveis do dataset, duas estão relacionadas ao consumo de álcool entre os estudantes, Walc e Dalc, que representam, respectivamente, o consumo no fim de semana e durante a semana. Essas variáveis estão codificadas em uma escala de 1 a 5, variando de "muito baixo" até "muito alto". Através da análise do dataset podemos observar que se trata de um problema desbalanceado. A distribuição pode ser observado nos gráficos apresentados na Figura 1. Figura 1 : Distribuição das variáveis Dalc e Walc. Munidos dessas informações, definimos Walc como target, já que essa variável possui uma distribuição menos assimétrica. Podemos observar pelos gráficos da Figura 1 que uma parcela significativa dos estudantes não consome álcool (ou consome muito 3

5 pouco) durante a semana, mas esse número é drasticamente reduzido se avaliarmos o consumo durante os finais de semana. Como o problema ainda se trata de uma distribuição significativamente desbalanceada das classes, decidimos por recodificar as variáveis Walc e Dalc através da união das opções 4 e 5 (que representam consumo de álcool "alto" e "muito alto"), de forma que o problema se encontre mais próximo de uma distribuição uniforme. Além disso, considerando que os dados foram levantados através de um questionário e são informações subjetivas, o significado de "alto" e "muito alto" pode ser interpretado de forma diferente entre os estudantes. A outra opção seria fazer um downsample dos registros, mas julgamos que o dataset não era grande o suficiente para que isso pudesse ser feito sem perdas significativas. O resultado da nova distribuição pode ser observado nos gráficos apresentados na Figura 2. Figura 2 : Distribuição das variáveis Dalc e Walc recodificadas. Podemos observar que a classe 1 continua com um número relativo de registros muito maior, mas a expectativa foi de que a combinação das duas menores classes gerasse resultados mais satisfatórios, pela utilização de uma distribuição mais balanceada. Neste relatório iremos avaliar o problema de 4 classes com a presença da variável Dalc (o quanto os alunos bebem durante a semana) dentro do modelo e sem a presença da mesma, procurando verificar a influência dessa variável nos resultados. Para classificar os registros foram utilizadas ferramentas presentes no scikit-learn para avaliar diferentes modelos, desde os mais simples até outros mais complexos, buscando aquele dentro do problema proposto que pudesse obter os melhores resultados. Ao final comparamos os resultados para decidir os modelos que melhor se aplicam ao problema. Para a avaliação dos resultados foi utilizado validação cruzada de 10 ciclos, evitando possível overfitting, e métricas como precisão (fração de instâncias recuperadas que foram previstas corretamente), recall (fração de instâncias de uma classe que foram previstas como sendo daquela classe), f1 (média ponderada entre precisão e recall para cada classe), f1-weighted (média ponderada dos resultados do f1-score levando em conta o 4

6 tamanho de cada classe) e erro quadrático médio (média da diferença entre o valor do estimador e do valor real ao quadrado) de cada modelo. 4. Resultados Nesta seção serão apresentadas as descrições dos modelos usados e breves comentários sobre as peculiaridades encontradas dentro deles. Na seção 5 esses resultados serão analisados de forma complementar, chegando às conclusões do relatório Regressão Logística A Regressão Logística se trata de um modelo relativamente simples, que assume que há um limite de decisão linear descoberto através de suposições probabilísticas. É importante ressaltar que o fato de não ser um algoritmo tão complexo não significa que os resultados serão necessariamente menos eficazes, pois essa relação depende do problema a ser analisado. No problema deste relatório a regressão logística teve resultados melhores do que outros modelos mais complexos, o que pode ser percebido dentro das comparações na seção 5. Figura 3 : Matriz d e Confusão Normalizada para o modelo de Regressão Logística. Tabela 1: Resultados do modelo de Regressão Logística com Dalc

7 avg / total Tabela 2: Resultados do modelo de Regressão Logística sem Dalc avg / total Bayesiano Multinomial A família de classificadores Bayesianos são baseados a partir da aplicação do Teorema de Bayes, o algoritmo é visto como relativamente simples por considerar que existe uma forte independência entre os atributos. Essa suposição é considerada como uma suposição inocente, o que dá o nome desse classificador em inglês: Naive Bayes, ou, em tradução livre, "Bayes Inocente". Dentro da ferramenta usada, scikit-learn, existem três modelos de classificação bayesiana disponíveis: Bernoulli, Multinomial, e Gaussiano. Analisando as opções, Bernoulli foi descartado por tomar como certo que as variáveis seriam todas binárias, o que não corresponde ao dataset utilizado nesse problema. Gaussiano toma como certo que as variáveis seguem uma distribuição normal, o que também não é verdade. Por isso, o modelo de classificação bayesiana apresentado neste relatório é o Bayesiano Multinomial. Os outros modelos foram executados a título de curiosidade e foi possível verificar experimentalmente que o Multinomial apresentava a melhor previsão para o problema em questão. Figura 4 : Matriz de Confusão Normalizada para o modelo Bayesiano Multinomial. 6

8 Tabela 3: Resultados do modelo Bayesiano Multinomial com Dalc avg / total Tabela 4: Resultados do modelo Bayesiano Multinomial sem Dalc avg / total Redes Neurais Redes neurais fazem uma abordagem diferente para resolver os problemas de classificação, usando certo número de unidades simples de processamento altamente interconectadas (neurônios) que se esforçam paralelamente na busca da classificação seguindo os padrões presentes. Neste relatório usamos redes neurais com duas camadas intermediárias, com número de neurônios/camada variando de 2 até 20. O resultado dessas alterações afetam o aprendizado que cada camada pode fazer sobre os dados; o objetivo é evitar o overlearning devido ao excesso no número de neurônios nas camadas intermediárias e também evitar a ausência de um ajuste fino o suficiente para representar de maneira acurada o problema. O primeiro modelo testado, com duas camadas intermediárias de dois neurônios cada, apresentou o problema citado anteriormente relacionado à ausência da possibilidade de um ajuste fino. Pode-se notar como o modelo realizou a classificação atribuindo todos os registros do dataset como sendo da classe 1, a classe majoritária. Esse enviesamento da classificação diminuiu com o aumento da capacidade de ajuste das camadas, ou seja, o aumento no número de neurônios. 7

9 Duas camadas intermediárias com 2 neurônios cada Figura 5 : Matriz de Confusão Normalizada para o modelo de Rede Neural (2, 2). Tabela 5: Resultados do modelo Rede Neural (2, 2) com Dalc avg / total Tabela 6: Resultados do modelo Rede Neural (2, 2) sem Dalc avg / total

10 Duas camadas intermediárias com 5 neurônios cada Figura 6 : Matriz de Confusão Normalizada para o modelo de Rede Neural (5, 5). Tabela 7: Resultados do modelo Rede Neural (5, 5) com Dalc avg / total Tabela 8: Resultados do modelo Rede Neural (5, 5) sem Dalc avg / total

11 Duas camadas intermediárias com 10 neurônios cada Figura 7 : Matriz de Confusão Normalizada para o modelo de Rede Neural (10, 10). Tabela 9: Resultados do modelo Rede Neural (10, 10) com Dalc avg / total Tabela 10: Resultados do modelo Rede Neural (10, 10) sem Dalc avg / total

12 Duas camadas intermediárias com 20 neurônios cada Figura 8 : Matriz de Confusão Normalizada para o modelo de Rede Neural (20, 20). Tabela 11: Resultados do modelo Rede Neural (20, 20) com Dalc avg / total Tabela 12: Resultados do modelo Rede Neural (20, 20) sem Dalc avg / total Support Vector Machine (SVM) Support Vector Machine se refere a um conjunto de métodos de aprendizado supervisionado que analisam os dados e reconhecem padrões buscando a melhor classificação que mantenha a maior separação entre as classes. Apesar de ser um modelo computacionalmente custoso, foi possível executar diferentes tipos de kernel usados pelo 11

13 algoritmo já que o problema trata de um dataset relativamente pequeno. Os diferentes kernels estão relacionados à função de similaridade que será usada pelo algoritmo. O fato do modelo SVM Linear ter tido o melhor resultado dos três avaliados pode ser associado à forma de separação do problema Linear Figura 9 : Matriz de Confusão Normalizada para o modelo SVM Linear. Tabela 13: Resultados do modelo SVM Linear com Dalc avg / total Tabela 14: Resultados do modelo SVM Linear sem Dalc avg / total

14 Polinomial Figura 10 : Matriz de Confusão Normalizada para o modelo SVM Polinomial. Tabela 15: Resultados do modelo SVM Polinomial com Dalc avg / total Tabela 16: Resultados do modelo SVM Polinomial sem Dalc avg / total

15 Função de Base Radial (RBF) Figura 11 : Matriz de Confusão Normalizada para o modelo SVM RBF. Tabela 17: Resultados do modelo SVM RBF com Dalc avg / total Tabela 18: Resultados do modelo SVM RBF sem Dalc avg / total Árvore de Decisão Árvore de decisão é uma ferramenta amplamente usada em data mining com o objetivo de criar um modelo capaz de predizer o target do problema através de uma sequência de entradas. Este modelo permite visualizar o fluxograma de decisão e assim aferir os atributos que desempenham maior grau de decisão dentro do problema. Para o 14

16 problema apresentado neste relatório foram usados diferentes configurações de níveis de profundidade máxima para o algoritmo: sem profundidade máxima, 3, e 5. É chamada de profundidade a distância do caminho da raiz da árvore até a folha. Algoritmos para construção de árvores de decisão buscam a cada etapa o atributo que melhor divida o conjunto de itens de forma binária. Diversas métricas podem ser utilizadas, geralmente medindo a homogeneidade da variável target. É importante ressaltar que o modelo de árvore de decisão é considerado um modelo altamente instável, ou seja, pequenas mudanças no conjunto de dados sendo analisado (como um conjunto de treinamento diferente) podem gerar árvores completamente diferentes. Com a utilização da validação cruzada, buscamos eliminar, ou pelo menos reduzir, o impacto dessa instabilidade nos resultados do modelo. Entretanto, a título de curiosidade, colocamos uma das árvores de decisão gerada, de forma a permitir perceber as principais variáveis usadas dentro dela para as decisões. Figura 12 : Árvore de Decisão gerada com Dalc com profundidade 3. Figura 13 : Árvore de Decisão gerada sem Dalc com profundidade 3. Com relação à profundidade da árvore quanto menor for a profundidade maior será a capacidade de generalização, entretanto menor a capacidade de ajuste. Dessa forma, é necessário encontrar um ponto ótimo que gere um ajuste fino o suficiente sem causar overfitting. 15

17 Sem Limite Figura 14 : Matriz de Confusão Normalizada para o modelo Árvore de Decisão sem Limite. Tabela 19: Resultados do modelo Árvore de Decisão sem Limite com Dalc avg / total Tabela 20: Resultados do modelo Árvore de Decisão sem Limite sem Dalc avg / total

18 Profundidade 3 Figura 15 : Matriz de Confusão Normalizada para o modelo Árvore de Decisão de profundidade 3. Tabela 21: Resultados do modelo Árvore de Decisão de profundidade 3 com Dalc avg / total Tabela 22: Resultados do modelo Árvore de Decisão de profundidade 3 sem Dalc avg / total

19 Profundidade 5 Figura 16 : Matriz de Confusão Normalizada para o modelo Árvore de Decisão de profundidade 5. Tabela 23: Resultados do modelo Árvore de Decisão de profundidade 5 com Dalc avg / total Tabela 24: Resultados do modelo Árvore de Decisão de profundidade 5 sem Dalc avg / total

20 4.6. Floresta Aleatória As florestas aleatórias ou as florestas de decisão aleatórias são métodos de aprendizagem de conjunto ( ensemble) que operam construindo uma multidão de árvores da decisão no tempo do treinamento. Cada árvore de decisão dá uma classificação, e pode-se dizer que a árvore "vota" por aquela classe. A floresta escolhe a classificação que obteve o maior número de votos. O objetivo disso é tratar a instabilidade do modelo de árvore de decisão. Para este relatório foram gerados 2 modelos de Floresta Aleatória, com 100 árvores e com 500 árvores árvores Figura 17 : Matriz de Confusão Normalizada para o modelo de Floresta Aleatória com 100 árvores. Tabela 25: Resultados do modelo Floresta Aleatória com 100 árvores com Dalc avg / total

21 Tabela 26: Resultados do modelo Floresta Aleatória com 100 árvores sem Dalc avg / total árvores Figura 18 : Matriz de Confusão Normalizada para o modelo de Tabela 27: Resultados do modelo Floresta Aleatória com 500 árvores com Dalc avg / total

22 Tabela 28: Resultados do modelo Floresta Aleatória com 500 árvores sem Dalc avg / total Avaliação e Conclusões Dentro da execução dos diferentes modelos pode-se notar que não existe um modelo único que irá se comportar com a melhor classificação no problema apresentado. Há uma sequência de ajustes que podem ser realizados em cada modelo com o objetivo de tornar sua classificação mais precisa (precision), mais completa (em relação a uma classe de interesse específica) (recall), ou com menor estimativa escolhida de erro e consequentemente ultrapassar outros modelos que se saíram melhor neste relatório. Na avaliação do problema e com os modelos escolhidos foi possível notar que o atributo Dalc (que representa o consumo de álcool pelos estudantes durante a semana) usualmente agrega uma melhoria considerável na classificação do problema. Entretanto, podemos considerar que o exercício sem a presença dessa variável faz mais sentido no mundo real, já que uma classificação sem ter informações explicitamente relacionadas ao consumo parece ter maior uso prático. É interessante evidenciar que o tamanho reduzido do dataset utilizado pode ter feito com que os modelos analisados durante o trabalho tivessem um desempenho abaixo do esperado. O que chama a atenção para, em vários momentos ao decorrer da disciplina, ter sido ressaltada a importância de uma quantidade suficientemente grande de dados para o estudo. Também é imprescindível ressaltar a gama de ferramentas que a biblioteca scikit-learn oferece, com uma vasta documentação que oferece um entendimento mais completo do funcionamento do algoritmo. É possível notar também que as variáveis que tiveram as maiores correlações com o target do problema, como verificado no Relatório 1, foram também as consideradas com maior grau de decisão pelo modelo da árvore de decisão. Destaca-se aqui a variável Dalc (quando presente no modelo), que apresentava a maior correlação com a variável Walc no relatório preliminar, além das variáveis goout e sex, referentes ao quando o aluno sai com os amigos e sexo do aluno (sendo 1 para masculino), respectivamente, que apresentaram correlações positivas de destaque. A comparação entre os modelos pode ser observado na Tabela 29 e 30, com a presença do atributo Dalc e sem, respectivamente. Tabela 29: Comparação dos resultados dos modelos sem Dalc Modelo f1_weighted Mean Squared Error 21

23 Regressão Logística Bayesiano Multinomial RN (2,2) RN (5,5) RN (10,10) RN (20,20) SVM Linear SVM Polinomial SVM RBF Decision Tree Decision Tree (D=3) Decision Tree (D=5) Random Forest Random Forest Tabela 30: Comparação dos resultados dos modelos com Dalc Modelo f1_weighted Mean Squared Error Regressão Logística Bayesiano Multinomial RN (2,2) RN (5,5) RN (10,10) RN (20,20) SVM Linear SVM Polinomial SVM RBF Decision Tree Decision Tree (D=3) Decision Tree (D=5) Random Forest Random Forest Os modelos que apresentaram um maior f1_weighted, a média ponderada dos valores de f1 de cada uma das classes, levando em conta a quantidade de registros de cada classe, e um menor erro quadrático médio, soma do quadrado dos erros de previsão, foram diferentes com e sem a presença da variável Dalc. Com Dalc, o modelo de Floresta Aleatória com 500 árvores apresentou maior f1_weighted e a Rede Neural com duas camadas intermediárias de 20 neurônios apresentou o menor erro quadrático médio. Sem Dalc, o modelo da árvore de decisão com profundidade 3 apresentou maior f1_weighted e o modelo SVM Linear apresentou menor erro quadrático médio. 22

24 Vale destacar que, na hipótese da presença da variável Dalc, o modelo de Floresta Aleatória com 500 árvores apresentou maior recall para a classe 4, onde estão os alunos que consomem uma maior quantidade de álcool, classe essa que dentro do target do problema se mostra como a de maior interesse em classificação. Sem essa variável, o modelo de Regressão Logística teve o melhor recall da classe 4. Esses resultados reforçam nossa conclusão de que diferentes modelos podem ser escolhidos como os mais adequados dependendo do seu objetivo, de forma que não existe um modelo chave que irá sempre ser a melhor opção. 6. Pesquisa Bibliográfica Using Data Mining To Predict Secondary School Student Alcohol Consumption. Fabio Pagnotta, Hossain Mohammad Amran Department of Computer Science,University of Camerino Livro Ensinando Máquinas - Autor: Alexandre G. Evsukoff Blog sobre Machine Learning Documentação do pandas Trabalhando com DataFrames Paper sobre o uso do dataset T_SECONDARY_SCHOOL_STUDENT_ALCOHOL_CONSUMPTION Logistic Regression with scikit-learn Documentação do scikit-learn Review on Methods to Fix Number of Hidden Neurons in Neural Networks Random Forests, by Leo Breiman and Adele Cutler 23

25 I. Apêndice 1: Código gerado para o Relatório 1 # coding: utf-8 import pandas import numpy as np from matplotlib import cm as cm from matplotlib import pyplot as plt from prettytable import PrettyTable materia = raw_input('mat ou Por? ') # Abrindo o arquivo mat = pandas.read_csv('student-%s.csv' % materia, sep=';') # Adaptando os dados del mat['reason'] mat['school'] = mat['school'].apply(lambda x: 0 if x == 'GP' else 1) mat['sex'] = mat['sex'].apply(lambda x: 0 if x == 'F' else 1) mat['address'] = mat['address'].apply(lambda x: 0 if x == 'R' else 1) mat['famsize'] = mat['famsize'].apply(lambda x: 0 if x == 'LE3' else 1) mat['pstatus'] = mat['pstatus'].apply(lambda x: 0 if x == 'T' else 1) mat['mjob'] = mat['mjob'].apply(lambda x: 0 if x == 'at_home' else 1) mat['fjob'] = mat['fjob'].apply(lambda x: 0 if x == 'at_home' else 1) mat['guardian'] = mat['guardian'].apply(lambda x: 1 if x == 'other' else 0) for i in ['schoolsup', 'famsup', 'paid', 'activities', 'nursery', 'higher', 'internet', 'romantic']: mat[i] = mat[i].apply(lambda x: 1 if x == 'yes' else 0) print str(mat.isnull().values.sum()) + ' valores ausentes' # Visualização tabela = PrettyTable(['Variavel', 'Min', 'Max', 'Mean', 'Std', 'Qtl 25', 'Qtl 75']) n = int(np.sqrt(len(mat.columns)))+1 fig = plt.figure(figsize=(12,9)) for i in range(len(mat.columns)): c = mat.columns[i] v = mat[c] ax1 = fig.add_subplot(n, n, i) ax1.hist(v, bins=len(v.unique())) ax1.set_title(c + ' - ' + materia) ax1.set_xlabel('valor') ax1.set_ylabel('frequencia') ax1.axis('off') tabela.add_row([c, v.min(), v.max(), round(v.mean(), 3), round(v.std(), 3),\ round(v.quantile(.25), 3), round(v.quantile(.75), 3)]) plt.tick_params(labeltop='off', labelbottom='off') plt.savefig('histograma_' + materia + '.png') plt.close() with open('tabela-%s.html' % materia,'w') as file: file.write(tabela.get_html_string()) def correlation_matrix(df): fig = plt.figure() 24

26 ax1 = fig.add_subplot(111) cmap = cm.get_cmap('jet', 30) cax = ax1.imshow(df.corr(), interpolation="nearest", cmap=cmap, clim=[-1,1]) ax1.grid(true) plt.title('matriz de Correlacao - %s' % materia) labels = df.columns ax1.set_xticks(np.arange(len(df.columns))) ax1.set_yticks(np.arange(len(df.columns))) ax1.set_xticklabels(labels, fontsize=10, rotation='vertical') ax1.set_yticklabels(labels, fontsize=10) cbar = fig.colorbar(cax, ticks=[-1, -0.75, -0.5, -0.25, 0,.25,.5,.75,1]) fig.subplots_adjust(bottom=0.15) plt.savefig('correlacao_%s.png' % materia) def boxplot(df): fig = plt.figure() plt.title('boxplot - %s' % materia) ax = fig.add_subplot(111) ax.set_xticklabels(df.columns, fontsize=10, rotation='vertical') bp = ax.boxplot([df[k] for k in df.columns]) fig.subplots_adjust(bottom=0.15) plt.savefig('boxplot_%s.png' % materia) plt.close() boxplot(mat) correlation_matrix(mat) 25

27 II. Apêndice 2: Código gerado para o Relatório 2 # coding: utf-8 import pandas import itertools import numpy as np from patsy import dmatrices from prettytable import PrettyTable from matplotlib import pyplot as plt from scipy import stats from sklearn import svm, metrics, tree from sklearn import naive_bayes as nb from sklearn import linear_model as lm from sklearn import cross_validation as cv from sklearn.ensemble import RandomForestClassifier from sklearn.grid_search import RandomizedSearchCV from sklearn.neural_network import MLPClassifier from sklearn.externals.six import StringIO import pydotplus # Abrindo o arquivo df = pandas.read_csv('student-por.csv', sep=';') # Adaptando os dados (Relatorio 1) del df['reason'] df['school'] = df['school'].apply(lambda x: 0 if x == 'GP' else 1) df['sex'] = df['sex'].apply(lambda x: 0 if x == 'F' else 1) df['address'] = df['address'].apply(lambda x: 0 if x == 'R' else 1) df['famsize'] = df['famsize'].apply(lambda x: 0 if x == 'LE3' else 1) df['pstatus'] = df['pstatus'].apply(lambda x: 0 if x == 'T' else 1) df['mjob'] = df['mjob'].apply(lambda x: 0 if x == 'at_home' else 1) df['fjob'] = df['fjob'].apply(lambda x: 0 if x == 'at_home' else 1) df['guardian'] = df['guardian'].apply(lambda x: 1 if x == 'other' else 0) for i in ['schoolsup', 'famsup', 'paid', 'activities', 'nursery', 'higher', 'internet', 'romantic']: df[i] = df[i].apply(lambda x: 1 if x == 'yes' else 0) # Pie Chart def pie(df, v, title): t = df[v].value_counts().to_dict() colors = ['gold', 'yellowgreen', 'lightcoral', 'lightskyblue', 'mediumslateblue'] plt.pie(t.values(), labels=t.keys(), colors=colors, shadow=true, autopct='%1.1f%%') plt.axis('equal') plt.savefig(title + 'png', transparent=true) plt.close() # Preparando para Relatorio 2 pie(df, 'Walc', 'Walc-5classes') pie(df, 'Dalc', 'Dalc-5classes') df['walc'] = df['walc'].apply(lambda x: 4 if x == 5 else x) df['dalc'] = df['dalc'].apply(lambda x: 4 if x == 5 else x) 26

28 pie(df, 'Walc', 'Walc-4classes') pie(df, 'Dalc', 'Dalc-4classes') del df['dalc'] colunas = reduce(lambda x, y: x if y == 'Walc' else x + ' + ' + y, df.columns) y, X = dmatrices('walc ~ ' + colunas, df, return_type='dataframe') y = np.ravel(y) class_names = range(1,5) # Confusion Matrix def plot_confusion_matrix(cm, classes, normalize=false, title='matriz de Confusao', cmap=plt.cm.blues): cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis] for i in range(len(cm)): for k in range(len(cm[i])): cm[i][k] = round(cm[i][k]*100, 1) plt.imshow(cm, interpolation='nearest', cmap=cmap, clim=[0,100]) plt.title(title) tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) plt.colorbar(ticks=[0,25,50,75,100]) thresh = 70 for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])): plt.text(j, i, cm[i, j], horizontalalignment="center", color="white" if cm[i, j] > thresh else "black") plt.tight_layout() plt.subplots_adjust(bottom=0.15) plt.ylabel('classe correta') plt.xlabel('classe predita') tabela = PrettyTable(['Modelo', 'f1', 'Mean Squared Error']) # Regressao Logistica # Modelo logistic = lm.logisticregression().fit(x, y) predicted = cv.cross_val_predict(logistic, X, y, cv=10) # Cross Validation scores = cv.cross_val_score(lm.logisticregression(), X, y, cv=10, scoring='f1_weighted') print 'Regressao Logistica' print scores.mean() # Avaliacao cnf_matrix = metrics.confusion_matrix(y, predicted) cr = metrics.classification_report(y, predicted) print cr with open('cr.txt', 'w') as text_file: text_file.write(cr) 27

29 text_file.write('\n') mse = metrics.mean_squared_error(y, predicted) tabela.add_row(['regressao Logistica', scores.mean(), mse]) # Matriz de Confusao Normalizada plt.figure() plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=true, title='matriz de Confusao Normalizada') plt.savefig('cm_rl_n.png', transparent=true) plt.close() print '\n' # Classificador Bayesiano (Multinomial) # Modelo bayes = nb.multinomialnb() bayes = bayes.fit(x, y) predicted = cv.cross_val_predict(bayes, X, y, cv=10) # Cross Validation scores = cv.cross_val_score(nb.multinomialnb(), X, y, cv=10, scoring='f1_weighted') print 'bayesiano multinomial' print scores.mean() # Avaliacao cnf_matrix = metrics.confusion_matrix(y, predicted) cr = metrics.classification_report(y, predicted) print cr with open('cr.txt', 'a') as text_file: text_file.write(cr) text_file.write('\n') mse = metrics.mean_squared_error(y, predicted) tabela.add_row(['bayesiano Multinomial', scores.mean(), mse]) # Matriz de Confusao Normalizada plt.figure() plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=true, title='matriz de Confusao Normalizada') plt.savefig('cm_bayes_n.png', transparent=true) plt.close() ## Modelo mlp = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(5,5), random_state=1) mlp = mlp.fit(x, y) predicted = cv.cross_val_predict(mlp, X, y, cv=10) # Cross Validation scores = cv.cross_val_score(mlpclassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(5,5), random_state=1), X, y, cv=10, scoring='f1_weighted') print 'redes neurais 55' print scores.mean() 28

30 mse = metrics.mean_squared_error(y, predicted) tabela.add_row(['rn (5,5)', scores.mean(), mse]) # Avaliacao cnf_matrix = metrics.confusion_matrix(y, predicted) cr = metrics.classification_report(y, predicted) print cr with open('cr.txt', 'a') as text_file: text_file.write(cr) text_file.write('\n') # Matriz de Confusao Normalizada plt.figure() plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=true, title='matriz de Confusao Normalizada') plt.savefig('cm_rn_n55.png', transparent=true) plt.close() ## Modelo mlp = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(20,20), random_state=1) mlp = mlp.fit(x, y) predicted = cv.cross_val_predict(mlp, X, y, cv=10) # Cross Validation scores = cv.cross_val_score(mlpclassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(20,20), random_state=1), X, y, cv=10, scoring='f1_weighted') print 'redes neurais 2020' print scores.mean() mse = metrics.mean_squared_error(y, predicted) tabela.add_row(['rn (20,20)', scores.mean(), mse]) # Avaliacao cnf_matrix = metrics.confusion_matrix(y, predicted) cr = metrics.classification_report(y, predicted) print cr with open('cr.txt', 'a') as text_file: text_file.write(cr) text_file.write('\n') # Matriz de Confusao Normalizada plt.figure() plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=true, title='matriz de Confusao Normalizada') plt.savefig('cm_rn_n2020.png', transparent=true) plt.close() ## Modelo mlp = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(10,10), random_state=1) mlp = mlp.fit(x, y) predicted = cv.cross_val_predict(mlp, X, y, cv=10) 29

31 # Cross Validation scores = cv.cross_val_score(mlpclassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(10,10), random_state=1), X, y, cv=10, scoring='f1_weighted') print 'redes neurais 1010' print scores.mean() mse = metrics.mean_squared_error(y, predicted) tabela.add_row(['rn (10,10)', scores.mean(), mse]) # Avaliacao cnf_matrix = metrics.confusion_matrix(y, predicted) cr = metrics.classification_report(y, predicted) print cr with open('cr.txt', 'a') as text_file: text_file.write(cr) text_file.write('\n') # Matriz de Confusao Normalizada plt.figure() plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=true, title='matriz de Confusao Normalizada') plt.savefig('cm_rn_n1010.png', transparent=true) plt.close() ## Modelo mlp = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(2,2), random_state=1) mlp = mlp.fit(x, y) predicted = cv.cross_val_predict(mlp, X, y, cv=10) # Cross Validation scores = cv.cross_val_score(mlpclassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(2,2), random_state=1), X, y, cv=10, scoring='f1_weighted') print 'redes neurais 1010' print scores.mean() mse = metrics.mean_squared_error(y, predicted) tabela.add_row(['rn (2,2)', scores.mean(), mse]) # Avaliacao cnf_matrix = metrics.confusion_matrix(y, predicted) cr = metrics.classification_report(y, predicted) print cr with open('cr.txt', 'a') as text_file: text_file.write(cr) text_file.write('\n') # Matriz de Confusao Normalizada plt.figure() plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=true, title='matriz de Confusao Normalizada') plt.savefig('cm_rn_n22.png', transparent=true) 30

32 plt.close() # SVM Linear # Modelo svc = svm.svc(kernel='linear') svc = svc.fit(x, y) predicted = cv.cross_val_predict(svc, X, y, cv=10) # Cross Validation scores = cv.cross_val_score(svm.svc(kernel='linear'), X, y, cv=10, scoring='f1_weighted') print 'svm linear' print scores.mean() mse = metrics.mean_squared_error(y, predicted) tabela.add_row(['svm Linear', scores.mean(), mse]) # Avaliacao cnf_matrix = metrics.confusion_matrix(y, predicted) cr = metrics.classification_report(y, predicted) print cr with open('cr.txt', 'a') as text_file: text_file.write(cr) text_file.write('\n') # Matriz de Confusao Normalizada plt.figure() plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=true, title='matriz de Confusao Normalizada') plt.savefig('cm_svm_l_n.png', transparent=true) plt.close() # SVM Polinomial # Modelo poly_svc = svm.svc(kernel='poly', degree=3) poly_svc = poly_svc.fit(x, y) predicted = cv.cross_val_predict(poly_svc, X, y, cv=10) # Cross Validation scores = cv.cross_val_score(svm.svc(kernel='poly', degree=3), X, y, cv=10, scoring='f1_weighted') print 'svm polinomial' print scores.mean() # Avaliacao cnf_matrix = metrics.confusion_matrix(y, predicted) cr = metrics.classification_report(y, predicted) print cr with open('cr.txt', 'a') as text_file: text_file.write(cr) text_file.write('\n') 31

33 mse = metrics.mean_squared_error(y, predicted) tabela.add_row(['svm Polinomial', scores.mean(), mse]) # Matriz de Confusao Normalizada plt.figure() plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=true, title='matriz de Confusao Normalizada') plt.savefig('cm_svm_p_n.png', transparent=true) plt.close() # SVM RBF # Modelo rbf_svc = svm.svc(kernel='rbf') rbf_svc = rbf_svc.fit(x, y) predicted = cv.cross_val_predict(rbf_svc, X, y, cv=10) # Cross Validation scores = cv.cross_val_score(svm.svc(kernel='rbf'), X, y, cv=10, scoring='f1_weighted') print 'svm rbf' print scores.mean() # Avaliacao cnf_matrix = metrics.confusion_matrix(y, predicted) cr = metrics.classification_report(y, predicted) print cr with open('cr.txt', 'a') as text_file: text_file.write(cr) text_file.write('\n') mse = metrics.mean_squared_error(y, predicted) tabela.add_row(['svm RBF', scores.mean(), mse]) # Matriz de Confusao Normalizada plt.figure() plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=true, title='matriz de Confusao Normalizada') plt.savefig('cm_svm_rbf_n.png', transparent=true) plt.close() # Decision Tree # Modelo clf = tree.decisiontreeclassifier(random_state=1) clf = clf.fit(x, y) predicted = cv.cross_val_predict(clf, X, y, cv=10) # Cross Validation scores = cv.cross_val_score(clf, X, y, cv=10) print 'decision tree' print scores.mean() 32

34 # Avaliacao cnf_matrix = metrics.confusion_matrix(y, predicted) cr = metrics.classification_report(y, predicted) print cr with open('cr.txt', 'a') as text_file: text_file.write(cr) text_file.write('\n') mse = metrics.mean_squared_error(y, predicted) tabela.add_row(['decision Tree', scores.mean(), mse]) # Matriz de Confusao Normalizada plt.figure() plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=true, title='matriz de Confusao Normalizada') plt.savefig('cm_tree_n.png', transparent=true) plt.close() # Decision Tree 3 # Modelo clf = tree.decisiontreeclassifier(max_depth=3, random_state=1) clf = clf.fit(x, y) predicted = cv.cross_val_predict(clf, X, y, cv=10) # Cross Validation scores = cv.cross_val_score(clf, X, y, cv=10) print 'decision tree' print scores.mean() # Avaliacao cnf_matrix = metrics.confusion_matrix(y, predicted) cr = metrics.classification_report(y, predicted) print cr with open('cr.txt', 'a') as text_file: text_file.write(cr) text_file.write('\n') mse = metrics.mean_squared_error(y, predicted) tabela.add_row(['decision Tree (D=3)', scores.mean(), mse]) # Matriz de Confusao Normalizada plt.figure() plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=true, title='matriz de Confusao Normalizada') plt.savefig('cm_tree3_n.png', transparent=true) plt.close() # Decision Tree 5 # Modelo clf = tree.decisiontreeclassifier(max_depth=5, random_state=1) clf = clf.fit(x, y) predicted = cv.cross_val_predict(clf, X, y, cv=10) 33

35 # Cross Validation scores = cv.cross_val_score(clf, X, y, cv=10) print 'decision tree' print scores.mean() # Avaliacao cnf_matrix = metrics.confusion_matrix(y, predicted) cr = metrics.classification_report(y, predicted) print cr with open('cr.txt', 'a') as text_file: text_file.write(cr) text_file.write('\n') mse = metrics.mean_squared_error(y, predicted) tabela.add_row(['decision Tree (D=5)', scores.mean(), mse]) teste = list(df.columns) teste = [0] + teste dot_data = tree.export_graphviz(clf, out_file = None, class_names=['1','2','3','4'], feature_names=teste, rounded=true) graph = pydotplus.graph_from_dot_data(dot_data) graph.write_pdf('teste5.pdf') # Matriz de Confusao Normalizada plt.figure() plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=true, title='matriz de Confusao Normalizada') plt.savefig('cm_tree5_n.png', transparent=true) plt.close() # Random Forest # Modelo clf = RandomForestClassifier(n_estimators=100) clf = clf.fit(x, y) predicted = cv.cross_val_predict(clf, X, y, cv=10) # Cross Validation scores = cv.cross_val_score(clf, X, y, cv=10) print 'Random Forest 100' print scores.mean() # Avaliacao cnf_matrix = metrics.confusion_matrix(y, predicted) cr = metrics.classification_report(y, predicted) print cr with open('cr.txt', 'a') as text_file: text_file.write(cr) text_file.write('\n') 34

36 mse = metrics.mean_squared_error(y, predicted) tabela.add_row(['random Forest 100', scores.mean(), mse]) # Matriz de Confusao Normalizada plt.figure() plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=true, title='matriz de Confusao Normalizada') plt.savefig('randomforest100.png', transparent=true) plt.close() # Random Forest # Modelo clf = RandomForestClassifier(n_estimators=500) clf = clf.fit(x, y) predicted = cv.cross_val_predict(clf, X, y, cv=10) # Cross Validation scores = cv.cross_val_score(clf, X, y, cv=10) print 'Random Forest 500' print scores.mean() # Avaliacao cnf_matrix = metrics.confusion_matrix(y, predicted) cr = metrics.classification_report(y, predicted) print cr with open('cr.txt', 'a') as text_file: text_file.write(cr) text_file.write('\n') mse = metrics.mean_squared_error(y, predicted) tabela.add_row(['random Forest 500', scores.mean(), mse]) # Matriz de Confusao Normalizada plt.figure() plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=true, title='matriz de Confusao Normalizada') plt.savefig('randomforest500.png', transparent=true) plt.close() tabela.align = "l" print tabela with open('tabela.txt', 'w') as text_file: text_file.write(tabela.get_string()) 35

Universidade Federal do Rio de Janeiro

Universidade Federal do Rio de Janeiro Universidade Federal do Rio de Janeiro Consumo de Álcool por Estudantes Professor: Alexandre Evsukoff Período: 2016/2 Disciplina: COC361 - Inteligência Computacional Rafael Gonçalves Damasceno DRE: 114009017

Leia mais

scikit-learn: Aprendizado de máquina 101 com Python

scikit-learn: Aprendizado de máquina 101 com Python scikit-learn: Aprendizado de máquina 101 com Python Luciana Fujii Campus Party BH 2016 1 / 30 Introdução Aprendizado de máquina Aprendizado de máquina é o campo da ciência da computação que dá aos computadores

Leia mais

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Luciana Kayo e Paulo Mei Prof. Dr. Marco Dimas Gubitoso Introdução Inspiração na competição When Bag of Words

Leia mais

2. Redes Neurais Artificiais

2. Redes Neurais Artificiais Computação Bioinspirada - 5955010-1 2. Redes Neurais Artificiais Prof. Renato Tinós Depto. de Computação e Matemática (FFCLRP/USP) 1 2.4. Outras Redes Neurais Artificiais 2.4.1. Redes RBF 2.4.2. Mapas

Leia mais

SUPPORT VECTOR MACHINE - SVM

SUPPORT VECTOR MACHINE - SVM SUPPORT VECTOR MACHINE - SVM Definição 2 Máquinas de Vetores Suporte (Support Vector Machines - SVMs) Proposto em 79 por Vladimir Vapnik Um dos mais importantes acontecimentos na área de reconhecimento

Leia mais

Descoberta de conhecimento em redes sociais e bases de dados públicas

Descoberta de conhecimento em redes sociais e bases de dados públicas Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:

Leia mais

Mineração de Dados - II

Mineração de Dados - II Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II Mineração de Dados - II Sylvio Barbon Junior barbon@uel.br 10 de julho de 2015 DC-UEL Sylvio Barbon Jr 1 Sumário Etapa II Algoritmos Básicos Weka: Framework

Leia mais

Relatório Técnico - SVM na base Breast Cancer Wisconsin

Relatório Técnico - SVM na base Breast Cancer Wisconsin Relatório Técnico - SVM na base Breast Cancer Wisconsin Matheus Gutoski Universidade Tecnológica Federal do Paraná - CPGEI/PPGCA Mineração de Dados 4 de novembro de 2016 1 Objetivo O objetivo deste trabalho

Leia mais

Redes Neurais Artificiais

Redes Neurais Artificiais Redes Neurais Artificiais Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Redes Neurais Biológicas 2. Neurônio Artificial 3. Rede Neural Artificial 4. Keras 1 Redes Neurais Biológicas

Leia mais

Considerações de Desempenho

Considerações de Desempenho Back Propagation Considerações de Desempenho Dicas para o BP O uso da função de ativação simétrica geralmente acelera o treinamento TANH +1 logistic linear 0 tanh -1-4 +4 1 Dicas para o BP Os pesos devem

Leia mais

Descoberta de Conhecimento em Bancos de Dados - KDD

Descoberta de Conhecimento em Bancos de Dados - KDD Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que

Leia mais

Back Propagation. Dicas para o BP

Back Propagation. Dicas para o BP Back Propagation Considerações de Desempenho Dicas para o BP O uso da função de ativação simétrica geralmente acelera o treinamento TANH +1 logistic linear 0 tanh -1-4 +4 11 Dicas para o BP Os pesos devem

Leia mais

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ) Cinthia Zamin Cavassola (GRR ) Luiza Hoffelder da Costa (GRR )

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ) Cinthia Zamin Cavassola (GRR ) Luiza Hoffelder da Costa (GRR ) UNIVERSIDADE FEDERAL DO PARANÁ Adriane Machado (GRR20149152) Cinthia Zamin Cavassola (GRR20149075) Luiza Hoffelder da Costa (GRR20149107) INFLUÊNCIA DE CARACTERÍSTICAS RELACIONADAS À ESCOLA, DEMOGRÁFICAS

Leia mais

Projeto da Disciplina

Projeto da Disciplina Projeto da Disciplina Germano C. Vasconcelos Centro de Informática - UFPE Germano C.Vasconcelos 1 Objetivo Realizar um estudo experimental sobre a aplicação de modelos de redes neurais em um problema do

Leia mais

Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta Professor: Eduardo R Hruschka Estagiário PAE: Luiz F S Coletta (luizfsc@icmcuspbr) Sumário Definição do projeto 1 Desenvolvimento de algoritmo de Aprendizado de Máquina (AM); 2 Pré-processamento dos dados;

Leia mais

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação de Dados Os modelos de classificação de dados são preditivos, pois desempenham inferências

Leia mais

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica REDES DE FUNÇÃO DE BASE RADIAL - RBF Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Funções de Base Global Funções de Base Global são usadas pelas redes BP. Estas funções são definidas como funções

Leia mais

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis: Back Propagation Fatores importantes para a modelagem da Rede Neural: Seleção de variáveis; veis; Limpeza dos dados; Representação das variáveis veis de entrada e saída; Normalização; Buscando melhor Generalização

Leia mais

Fundamentos de Mineração de Dados

Fundamentos de Mineração de Dados Fundamentos de Mineração de Dados Prof. Ricardo Fernandes ricardo.asf@ufscar.br O que é Mineração de Dados? Uso de ferramentas matemáticas, clássicas ou inteligentes, no processo de descoberta de conhecimento

Leia mais

Exame de Aprendizagem Automática

Exame de Aprendizagem Automática Exame de Aprendizagem Automática 2 páginas com 12 perguntas e 3 folhas de resposta. Duração: 2 horas e 30 minutos DI, FCT/UNL, 12 de Janeiro de 2017 Nota: O exame está cotado para 40 valores. Os 20 valores

Leia mais

APRENDIZAGEM DE MÁQUINA

APRENDIZAGEM DE MÁQUINA APRENDIZAGEM DE MÁQUINA (usando Python) Thiago Marzagão ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão APRENDIZAGEM DE MÁQUINA 1 / 20 árvore de decisão Aulas passadas: queríamos prever variáveis quantitativas.

Leia mais

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica REDES NEURAIS ARTIFICIAIS MÁQUINA DE VETOR DE SUPORTE (SUPPORT VECTOR MACHINES) Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Introdução Poderosa metodologia para resolver problemas de aprendizagem

Leia mais

Aprendizado de Máquina. Combinando Classificadores

Aprendizado de Máquina. Combinando Classificadores Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquina Combinando Classificadores David Menotti, Ph.D. web.inf.ufpr.br/menotti Introdução O uso de vários classificadores

Leia mais

Determinação de vícios refrativos oculares utilizando Support Vector Machines

Determinação de vícios refrativos oculares utilizando Support Vector Machines Determinação de vícios refrativos oculares utilizando Support Vector Machines Giampaolo Luiz Libralão, André Ponce de Leon F. de Carvalho, Antonio Valerio Netto, Maria Cristina Ferreira de Oliveira Instituto

Leia mais

Inteligência nos Negócios (Business Inteligente)

Inteligência nos Negócios (Business Inteligente) Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 6) Fundamentação da disciplina Analise de dados Decisões

Leia mais

Inteligência Artificial

Inteligência Artificial Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial Aprendizagem Outras Técnicas Prof. a Joseana Macêdo Fechine Régis

Leia mais

Aula 3: Random Forests

Aula 3: Random Forests Aula 3: Random Forests Paulo C. Marques F. Aula ministrada no Insper 26 de Fevereiro de 2016 Insper Random Forests 26 de Fevereiro de 2016 1 / 18 Árvores de classificação Estamos no mesmo contexto de aprendizagem

Leia mais

2. Redes Neurais Artificiais

2. Redes Neurais Artificiais Computação Bioinspirada - 5955010-1 2. Redes Neurais Artificiais Prof. Renato Tinós Depto. de Computação e Matemática (FFCLRP/USP) 1 2.5. Support Vector Machines 2.5. Support Vector Machines (SVM) 2.5.2.

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial INF 1771 Inteligência Artificial Aula 14 Support Vector Machines (SVM) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest

Leia mais

4 Construção dos Classificadores

4 Construção dos Classificadores 4 Construção dos Classificadores 4.1. Modelagem O aprendizado supervisionado contém a etapa de modelagem, nessa etapa definimos quais serão as características encaminhadas ao classificador para o treinamento.

Leia mais

Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS

Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS Aluno: Fabricio Aparecido Breve Prof.: Dr. André Ponce

Leia mais

Estudo de Caso. Índice. Descrição da Área. Daniel Gomes Dosualdo Solange Oliveira Rezende

Estudo de Caso. Índice. Descrição da Área. Daniel Gomes Dosualdo Solange Oliveira Rezende Estudo de Caso Daniel Gomes Dosualdo Solange Oliveira Rezende Índice Descrição da Área Identificação do Problema Descrição do Conjunto de Dados Pré-Processamento Extração de Padrões Pós-Processamento Disponibilização

Leia mais

Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21

Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21 MINERAÇÃO DE DADOS Thiago Marzagão 1 1 marzagao.1@osu.edu ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21 árvore de decisão Aulas passadas: queríamos

Leia mais

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ (UTFPR) 2016/ PPGCA PPGCA/UTFPR -- CAIA003

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ (UTFPR) 2016/ PPGCA PPGCA/UTFPR -- CAIA003 UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ (UTFPR) Mineração de Dados 2016/3 Professores Celso e Heitor Jean Avila Rangel 1801317 - PPGCA PPGCA/UTFPR câmpus Curitiba -- CAIA003 - Mineração de Dados --

Leia mais

Classificadores Lineares

Classificadores Lineares Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Classificadores Lineares David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Funções Discriminantes Lineares Perceptron Support

Leia mais

ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA

ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA CURTA DURAÇÃO ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA CARGA HORÁRIA: 80 horas COORDENAÇÃO: Prof.ª Dr.ª Alessandra de Ávila Montini OBJETIVOS Introduzir o conceito de Big Data,

Leia mais

Boas Maneiras em Aprendizado de Máquinas

Boas Maneiras em Aprendizado de Máquinas Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Boas Maneiras em Aprendizado de Máquinas David Menotti www.inf.ufpr.br/menotti/ci171-182 Boas Maneiras Agenda Introdução Métricas

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 09 Árvores de Decisão Max Pereira Classificação É a tarefa de organizar objetos em uma entre diversas categorias pré-definidas. Exemplos

Leia mais

Weka. Universidade de Waikato - Nova Zelândia. Coleção de algoritmos de aprendizado de máquina para resolução de problemas de Data Mining

Weka. Universidade de Waikato - Nova Zelândia. Coleção de algoritmos de aprendizado de máquina para resolução de problemas de Data Mining Weka Universidade de Waikato - Nova Zelândia Coleção de algoritmos de aprendizado de máquina para resolução de problemas de Data Mining implementado em Java open source software http://www.cs.waikato.ac.nz/ml/weka/

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo (knn) Um algoritmo supervisionado usado para classificar

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 17 Support Vector Machines (SVM) Formas de Aprendizado Aprendizado Supervisionado Árvores de decisão. K-Nearest Neighbor

Leia mais

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS PROJETO PEDAGÓGICO CAMPO LIMPO PAULISTA 2015 1. Público

Leia mais

Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta (luizfsc@icmc.usp.br) Sumário 1. Motivação 2. Bagging 3. Random Forest 4. Boosting

Leia mais

5 Estudo de Caso e Resultados

5 Estudo de Caso e Resultados 5 Estudo de Caso e Resultados 5.1. Introdução Finalizado o desenvolvimento da ferramenta, é indispensável testar suas funcionalidades e a eficácia da aplicação conjunta dos seus módulos de geração de experimentos

Leia mais

Data Science. Data Stream Mining: trabalhando com dados massivos. André Luís Nunes Porto Alegre, Globalcode Open4education

Data Science. Data Stream Mining: trabalhando com dados massivos. André Luís Nunes Porto Alegre, Globalcode Open4education Data Science Data Stream Mining: trabalhando com dados massivos André Luís Nunes Porto Alegre, 2018 Globalcode Open4education Data Stream Mining trabalhando com dados massivos 2018 agenda andré luís nunes

Leia mais

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017 Inteligência de Negócios Fatec Indaiatuba Prof. Piva Compreender as definições e conceitos básicos da Mineração de Dados (MD) Entender o processo KDD (Knowledge Discovery Data) e MD Descrever as etapas

Leia mais

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC Uma Solução para o GISSA: Análise Comparativa entre Algoritmos de Aprendizagem de Máquina Aplicados em um Dataset Relacionado ao Óbito Infantil Joyce Quintino Alves (1) ; Cristiano Lima da Silva (2); Antônio

Leia mais

Eduardo Vargas Ferreira

Eduardo Vargas Ferreira Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Considerações finais Eduardo Vargas Ferreira Como obter boas predições 1 Entenda os dados: explore as características, crie

Leia mais

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores SCC0173 Mineração de Dados Biológicos Classificação IV: Avaliação de Classificadores Créditos O material a seguir consiste de adaptações e extensões dos originais: gentilmente cedidos pelo rof. André C..

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo k-nearest Neighbors (knn) Como os filmes são categorizados em gêneros? O que

Leia mais

Tópicos Especiais: Inteligência Artificial REDES NEURAIS

Tópicos Especiais: Inteligência Artificial REDES NEURAIS Tópicos Especiais: Inteligência Artificial REDES NEURAIS Material baseado e adaptado do Cap. 20 do Livro Inteligência Artificial de Russell & Norvig Bibliografia Inteligência Artificial Russell & Norvig

Leia mais

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka Classificação: 1R e Naïve Bayes Eduardo Raul Hruschka Agenda: Conceitos de Classificação Técnicas de Classificação One Rule (1R) Naive Bayes (com seleção de atributos) Super-ajuste e validação cruzada

Leia mais

Exame de Aprendizagem Automática

Exame de Aprendizagem Automática Exame de Aprendizagem Automática 2 páginas com 11 perguntas e 3 folhas de resposta. Duração: 2 horas e 30 minutos DI, FCT/UNL, 5 de Janeiro de 2016 Nota: O exame está cotado para 40 valores. Os 20 valores

Leia mais

Combinação de Classificadores (fusão)

Combinação de Classificadores (fusão) Combinação de Classificadores (fusão) André Tavares da Silva andre.silva@udesc.br Livro da Kuncheva Roteiro Sistemas com múltiplos classificadores Fusão por voto majoritário voto majoritário ponderado

Leia mais

Algoritmos de Aprendizado

Algoritmos de Aprendizado Algoritmos de Aprendizado Regra de Hebb Perceptron Delta Rule (Least Mean Square) Back Propagation Radial Basis Functions (RBFs) Competitive Learning Hopfield Algoritmos de Aprendizado Regra de Hebb Perceptron

Leia mais

Objetivos. 1. O método desenvolvido usa características de pares de pixeis para fazer estatísticas e formar

Objetivos. 1. O método desenvolvido usa características de pares de pixeis para fazer estatísticas e formar Introdução Comidas podem apresentar deformações e variações em sua forma, além de conter muitos ingredientes, nem todos visíveis; Métodos tradicionais de reconhecimento requerem a detecção de características

Leia mais

PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos RESUMO

PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos RESUMO PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos Carla Fernandes da SILVA 1 ; Clayton Silva MENDES 2. RESUMO A evasão escolar é um dos principais desafios a ser superado

Leia mais

Classificação de Padrões. Abordagem prática com Redes Neurais Artificiais

Classificação de Padrões. Abordagem prática com Redes Neurais Artificiais Classificação de Padrões Abordagem prática com Redes Neurais Artificiais Agenda Parte I - Introdução ao aprendizado de máquina Parte II - Teoria RNA Parte III - Prática RNA Parte IV - Lições aprendidas

Leia mais

Tutorial: Árvore de Decisão com Weka para a classificação de carne suína

Tutorial: Árvore de Decisão com Weka para a classificação de carne suína Universidade Estadual de Londrina - UEL 2 CTA 121 - Processamento de Imagens em Alimentos Prática de Aprendizado de Máquina com Weka 28/07/2016 Prof. Dr. Sylvio Barbon Jr Tutorial: Árvore de Decisão com

Leia mais

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions Redes RBF: Função de Base Radial Redes Neurais A Rede RBF O LP é baseado em unidades que calculam uma função não-linear do produto escalar do vetor de entrada e um vetor de peso. A rede RBF pertence a

Leia mais

JAI 6 - Deep Learning Teoria e Prática

JAI 6 - Deep Learning Teoria e Prática JAI 6 - Deep Learning Teoria e Prática Esteban Clua e Cristina Nader Vasconcelos Universidade Federal Fluminense Fundamentos Computação baseada em modelos crisnv@ic.uff.br 2 Computação baseada em aprendizado

Leia mais

SCC0173 Mineração de Dados Biológicos

SCC0173 Mineração de Dados Biológicos SCC0173 Mineração de Dados Biológicos Classificação I: Algoritmos 1Rule e KNN Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões dos originais:

Leia mais

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR Aprendizagem de Máquina Prof. Júlio Cesar Nievola PPGIA - PUCPR Introdução Justificativa Recente progresso em algoritmos e teoria Disponibilidade crescente de dados online Poder computacional disponível

Leia mais

Redes Neurais (Inteligência Artificial)

Redes Neurais (Inteligência Artificial) Redes Neurais (Inteligência Artificial) Aula 13 Support Vector Machines (SVM) Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest

Leia mais

IA - TensorFlow. Paulo Cotta

IA - TensorFlow. Paulo Cotta IA - TensorFlow Paulo Cotta Jabá Sou voluntário do GDG Trabalho na Stefanini como Engineer ML e DL Tenho à Startup Koffee More Gosto de repassar conhecimento Faço parte do Candangos do Cerrado IA Professor

Leia mais

Informática Parte 19 Prof. Márcio Hunecke

Informática Parte 19 Prof. Márcio Hunecke Escriturário Informática Parte 19 Prof. Márcio Hunecke Informática NOÇÕES DE ALGORITMOS DE APRENDIZADO O aprendizado automático, aprendizado de máquina (em inglês: "machine learning") ou aprendizagem

Leia mais

7 Resultados. F i (x j ) = j=1

7 Resultados. F i (x j ) = j=1 7 Resultados Neste capítulo, utilizaremos os mesmos dados sintéticos gerados para realizar os experimentos no capítulo 4. Testaremos a aproximação implícita da variedade com duas subdivisões espaciais

Leia mais

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho... DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar

Leia mais

Redes Neurais: RBF. Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação

Redes Neurais: RBF. Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação Redes Neurais: RBF DCA0121 Inteligência Artificial Aplicada Heitor Medeiros 1 Tópicos Redes de Funções de

Leia mais

II Workshop do Projeto ReVir Tarefa T 5 : Seleção de Redes Virtuais com Base em SLAs

II Workshop do Projeto ReVir Tarefa T 5 : Seleção de Redes Virtuais com Base em SLAs II Workshop do Projeto ReVir Tarefa T 5 : Seleção de Redes Virtuais com Base em SLAs Rafael Lopes Gomes Edmundo M. R. Madeira Nelson L. S. da Fonseca Laboratório de Redes de Computadores - LRC Instituto

Leia mais

PREVISÃO DA DEMANDA BIOQUÍMICA DE OXIGÊNIO POR MEIO DE VARIÁVEIS LIMNOLÓGICAS UTILIZANDO MODELOS DE APRENDIZADO DE MÁQUINA EM PYTHON

PREVISÃO DA DEMANDA BIOQUÍMICA DE OXIGÊNIO POR MEIO DE VARIÁVEIS LIMNOLÓGICAS UTILIZANDO MODELOS DE APRENDIZADO DE MÁQUINA EM PYTHON PREVISÃO DA DEMANDA BIOQUÍMICA DE OXIGÊNIO POR MEIO DE VARIÁVEIS LIMNOLÓGICAS UTILIZANDO MODELOS DE APRENDIZADO DE MÁQUINA EM PYTHON L. O. M. DA SILVA 1, D. L. C. DA SILVA 1, L. A. VANDERLEI 1, M. C. O.

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Introdução Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina 1 / 19 Introdução

Leia mais

Laboratório Como usar algoritmos de aprendizado de máquina de regressão em Weka

Laboratório Como usar algoritmos de aprendizado de máquina de regressão em Weka Laboratório Como usar algoritmos de aprendizado de máquina de regressão em Weka Faça o download do dataset housing.arff*, e execute as seguintes tarefas: *disponível em: www.inf.ufpr.br/menotti/am-182/data.zip

Leia mais

Prediction of Secondary Structure of Protein using Support Vector Machine / 11

Prediction of Secondary Structure of Protein using Support Vector Machine / 11 Prediction of Secondary Structure of Protein using Support Vector Machine Pankaj Agarwal, Shivani Agarwal e Deepali Mendiratta IMS Engineering College, Ghaziabad - India 2014 Prediction of Secondary Structure

Leia mais

Inteligência Artificial Redes Neurais

Inteligência Artificial Redes Neurais Inteligência Artificial Jarley P. Nóbrega, Dr. Faculdade Nova Roma Bacharelado em Ciência da Computação jpn@jarley.com Semestre 2018.2 Jarley P. Nóbrega, Dr. (Nova Roma) Inteligência Artificial Semestre

Leia mais

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR Aprendizagem de Máquina - 2 Prof. Júlio Cesar Nievola PPGIa - PUCPR Inteligência versus Aprendizado Aprendizado é a chave da superioridade da Inteligência Humana Para que uma máquina tenha Comportamento

Leia mais

2. Redes Neurais Artificiais

2. Redes Neurais Artificiais Computação Bioinspirada - 5955010-1 2. Redes Neurais Artificiais Prof. Renato Tinós Depto. de Computação e Matemática (FFCLRP/USP) 1 2.3. Perceptron Multicamadas - MLP 2.3.1. Introdução ao MLP 2.3.2. Treinamento

Leia mais

Múltiplos Classificadores

Múltiplos Classificadores Universidade Federal do Paraná (UFPR) Bacharelado em Informátia Biomédica Múltiplos Classificadores David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Múltiplos classificadores Combinação de classificadores

Leia mais

Introdução Trabalhos Relacionados Metodologia Resultados Considerações Finais. Aluna: Aline Dartora Orientador: Prof. Dr. Lucas Ferrari de Oliveira

Introdução Trabalhos Relacionados Metodologia Resultados Considerações Finais. Aluna: Aline Dartora Orientador: Prof. Dr. Lucas Ferrari de Oliveira Análise de Extratores de Características para a Classificação de Tecidos Pulmonares e Não-Pulmonares em Imagens de Tomografia Computadorizada de Alta Resolução Aluna: Aline Dartora Orientador: Prof. Dr.

Leia mais

Seleção de Atributos 1

Seleção de Atributos 1 Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas

Leia mais

5 RNA para Diagnóstico de Falhas em Turbinas a Gás

5 RNA para Diagnóstico de Falhas em Turbinas a Gás 5 RNA para Diagnóstico de Falhas em Turbinas a Gás 5.1. Introdução Neste capítulo, a aplicação de RNAs para diagnosticar as falhas no caminho do gás de turbinas a gás foi investigada. As redes neurais

Leia mais

7 Resultados e Discussão

7 Resultados e Discussão 114 7 Resultados e Discussão A fim de avaliar a importância da utilização de imagens polarizadas em medidas de textura, cujo processamento necessita de imagens nos dois modos de captura (campo claro e

Leia mais

ANÁLISE DE BIG DATA VIA MACHINE LEARNING E INTELIGÊNCIA ARTIFICIAL

ANÁLISE DE BIG DATA VIA MACHINE LEARNING E INTELIGÊNCIA ARTIFICIAL CURTA DURAÇÃO ANÁLISE DE BIG DATA VIA MACHINE LEARNING E INTELIGÊNCIA ARTIFICIAL CARGA HORÁRIA: 76 horas COORDENAÇÃO: Prof.ª Dr.ª Alessandra de Ávila Montini OBJETIVOS Introduzir o conceito de Big Data,

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Aula #8.1 EBS 564 IA Prof. Luiz Fernando S. Coletta luizfsc@tupa.unesp.br Campus de Tupã Conhecimento: abstração (modelo) das relações existentes entre as informações contidas nos

Leia mais

Métodos de reamostragem

Métodos de reamostragem Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Métodos de reamostragem Eduardo Vargas Ferreira Função custo 2 Função custo Matriz de confusão: é um layout de tabela que

Leia mais

Aprendizado de Supervisionado

Aprendizado de Supervisionado Aprendizado de Supervisionado Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Aprendendo com Exemplos 2. Classificação 3. Conceitos Gerais 4. Vizinho Mais Próximo 1 Aprendendo com Exemplos

Leia mais

Aprendizado de Máquina Introdução às Redes Neurais Artificiais

Aprendizado de Máquina Introdução às Redes Neurais Artificiais Aprendizado de Máquina Introdução às Redes Neurais Artificiais Marcos Oliveira Prates (Agradecimento Marcelo Azevedo Costa) Departamento de Estatística Universidade Federal de Minas Gerais Inteligência

Leia mais

5 Experimentos Conjunto de Dados

5 Experimentos Conjunto de Dados Experimentos 48 5 Experimentos Este capítulo apresenta o ambiente experimental utilizado para validar o método de predição do CTR proposto neste trabalho. Na seção 5.1, descrevemos a geração do conjunto

Leia mais

1 o Teste de Aprendizagem Automática

1 o Teste de Aprendizagem Automática o Teste de Aprendizagem Automática 3 páginas com 6 perguntas e 2 folhas de resposta. Duração: 2 horas DI, FCT/UNL, 22 de Outubro de 205 Pergunta [4 valores] As figuras abaixo mostram o erro de treino e

Leia mais

Máquinas de Vetores de Suporte

Máquinas de Vetores de Suporte Máquinas de Vetores de Suporte Prof. Marcelo Keese Albertini Faculdade de Computação Universidade Federal de Uberlândia 19 de Junho de 2017 2/27 Máquinas de Vetores de Suporte Support Vector Machines (SVM)

Leia mais

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais Introdução à Mineração de Dados com Aplicações em Ciências Espaciais Escola de Verão do Laboratório Associado de Computação e Matemática Aplicada Rafael Santos Dia 2: 1 /59 Programa Dia 1: Apresentação

Leia mais

Algarve. A2 Aprendizagem Automática ML Machine Learning 7/15/2013

Algarve. A2 Aprendizagem Automática ML Machine Learning 7/15/2013 Preparado para o curso de pós-graduação em Ciências da Computação da Universidade Federal do Ceará, Fortaleza, Brasil A2 Aprendizagem Automática ML Machine Learning Julho e Agosto de 2013 José Valente

Leia mais

3 Aprendizado por reforço

3 Aprendizado por reforço 3 Aprendizado por reforço Aprendizado por reforço é um ramo estudado em estatística, psicologia, neurociência e ciência da computação. Atraiu o interesse de pesquisadores ligados a aprendizado de máquina

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Horários Aulas Sala 3 CCET [quinta-feira, 8:20 12:00] Atendimento

Leia mais

Minicurso: Inteligência Artificial Aplicada a Sistemas Elétricos

Minicurso: Inteligência Artificial Aplicada a Sistemas Elétricos Minicurso: Inteligência Artificial Aplicada a Sistemas Elétricos Introdução a Machine Learning: Teoria, Aplicações e IA na Arquitetura Intel Vitor Hugo Ferreira, DSc - UFF Flávio Mello, DSc UFRJ e Ai2Biz

Leia mais

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a 1 Introdução 1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a partir de dados. Existem diversas aplicações

Leia mais

3 Redes Neurais Artificiais

3 Redes Neurais Artificiais 3 Redes Neurais Artificiais 3.1. Introdução A capacidade de implementar computacionalmente versões simplificadas de neurônios biológicos deu origem a uma subespecialidade da inteligência artificial, conhecida

Leia mais

Análise de Risco de Crédito Bancário

Análise de Risco de Crédito Bancário UNIVERSIDADE FEDERAL DE CAMPINA GRANDE UFCG Curso de Mestrado em Informática Aluno: Francisco Fabian de Macedo Almeida Disciplina: Mineração de Dados Professor: Marcos Sampaio Data: 20 de dezembro de 2007

Leia mais