Escriturário Informática Parte 19 Prof. Márcio Hunecke
Informática NOÇÕES DE ALGORITMOS DE APRENDIZADO O aprendizado automático, aprendizado de máquina (em inglês: "machine learning") ou aprendizagem automática é um subcampo da ciência da computação que evoluiu do estudo de reconhecimento de padrões e da teoria do aprendizado computacional em inteligência artificial. Em 1959, Arthur Samuel definiu aprendizado de máquina como o "campo de estudo que dá aos computadores a habilidade de aprender sem serem explicitamente programados"(livre tradução). O aprendizado automático explora o estudo e construção de algoritmos que podem aprender de seus erros e fazer previsões sobre dados. Tais algoritmos operam construindo um modelo a partir de inputs amostrais a fim de fazer previsões ou decisões guiadas pelos dados ao invés de simplesmente seguindo inflexíveis e estáticas instruções programadas. Enquanto que na inteligência artificial existem dois tipos de raciocínio (o indutivo, que extrai regras e padrões de grandes conjuntos de dados, e o dedutivo), o aprendizado de máquina só se preocupa com o indutivo. Algumas partes do aprendizado automático estão intimamente ligadas (e muitas vezes sobrepostas) à estatística computacional; uma disciplina que foca em como fazer previsões através do uso de computadores, com pesquisas focando nas propriedades dos métodos estatísticos e sua complexidade computacional. Ela tem fortes laços com a otimização matemática, que produz métodos, teoria e domínios de aplicação para este campo. O aprendizado automático é usado em uma variedade de tarefas computacionais onde criar e programar algoritmos explícitos é impraticável. Exemplos de aplicações incluem filtragem de spam, reconhecimento ótico de caracteres (OCR), processamento de linguagem natural, motores de busca, diagnósticos médicos, bioinformática, reconhecimento de fala, reconhecimento de escrita, visão computacional e locomoção de robôs. O aprendizado de máquinas é às vezes confundido com mineração de dados, que é um subcampo que foca mais em análise exploratória de dados e é conhecido como aprendizado não supervisionado. No campo da análise de dados, o aprendizado de máquinas é um método usado para planejar modelos complexos e algoritmos que se prestam para fazer predições no uso comercial, isso é conhecido como análise preditiva. Esses modelos analíticos permitem que pesquisadores, cientistas de dados, engenheiros, e analistas possam "produzir decisões e resultados confiáveis e repetitíveis" e descobrir os "insights escondidos" através do aprendizado das relações e tendências históricas nos dados. Os algoritmos de aprendizado são classificados em três categorias: Supervisionados, Não supervisionados e Por reforço. Este último não está no nosso edital. www.acasadoconcurseiro.com.br 3
Características dos Algoritmos Supervisionados Utilizados para fazer CLASSIFICAÇÃO (com rótulos definidos) ou para fazer REGRESSÃO (prever valores). Classificação: Quando os dados estiverem sendo usados para prever uma categoria, o aprendizado supervisionado também será chamado de classificação. Esse é o caso ao atribuir uma imagem como uma foto de um gato ou de um cachorro. Quando há apenas duas opções, isso é chamado de classificação binomial ou de duas classes. Quando houver mais categorias, como na previsão do vencedor do torneio, esse problema é conhecido como classificação multiclasse. Regressão: Utilizado quando um valor estiver sendo previsto, assim como acontece com preços de cotações Conhecemos todas as características e podemos registrar elas em um banco de dados, normalmente uma tabela. Prever uma variável dependente a partir de uma lista de variáveis independentes. Exemplos: Com os dados da primeira coluna podemos prever os dados da segunda coluna Dados que temos Anos de Carreira, Formação e Idade Idade do Carro e Idade do Motorista N características de vinho N características da Flor Iris Dados que podem ser previstos Salário Risco de Acidente Tipo de vinho Tipo de flor (virgínica, versicolor, setosa) Abaixo um exemplo de informações sobre a flor Iris. As 4 últimas informações são coletadas e se consegue classificar o tipo de flor (coluna D). Exemplo de tabela a ser utilizada para Classificação da Flor de Iris Outra utilização muito importante de algoritmo é a Regressão. Neste caso se tem um valor e se busca outro. No exemplo abaixo, temos a distância percorrida e conseguimos estimar o VO2 (quantidade de oxigênio que o atleta consegue produzir). 4 www.acasadoconcurseiro.com.br
Banco do Brasil - TI (Escriturário) Informática Márcio Henecke Ferramentas utilizadas para Algoritmos Supervisionados KNN (k-nearest Neighbors) ou k-vizinhos mais próximos Ferramenta mais utilizada do mercado. Distance-Weighted Nearest Neighbors Criado a partir do KNN com foco em cálculos de distância. SVM (Support Vector Machines) ou Máquinas de vetores de suporte Conjunto relacionado de métodos de aprendizado supervisionado usados para classificação e regressão. Dado um conjunto de exemplos de treinamento, cada um marcado como pertencente de uma ou duas categorias, um algoritmo SVM constrói um modelo que prediz se um novo exemplo cai dentro de uma categoria ou outra. Estuda e analisa dados com o objetivo de reconhecimento de padrões. Técnicas utilizadas: Redes Neurais, Árvores de decisão e Regressão. Características dos Algoritmos Não Supervisionados No aprendizado não supervisionado, os pontos de dados não têm rótulos associados a eles. Em vez disso, a meta de um algoritmo de aprendizado sem supervisão é organizar os dados de alguma forma ou descrever sua estrutura. Isso pode significar fazer um AGRUPAMENTO em clusters ou encontrar diferentes maneiras de consultar dados complexos para que eles pareçam mais simples ou mais organizados. Objetivo é montar a ESTRUTURA do conjunto de dados. Não conhecemos todas as características e não podemos registrar. Exemplos: Com os dados da primeira coluna podemos prever os dados da segunda coluna www.acasadoconcurseiro.com.br 5
Dados que temos Registro das vendas Transações bancárias Palavras de um livro Dados que podem ser previstos Associação entre os produtos ou Perfil do Comprador Definir legalidade / normalidade da transação Definir o perfil do livro Gráfico característico de análise de algoritmos não supervisionados Ferramentas utilizadas para Algoritmos Não Supervisionados K-means ou K-médias é um dos mais simples e os mais conhecidos algoritmos de aprendizado não supervisionado, e pode ser usado para uma variedade de aprendizagem de tarefas, tais como a detecção de dados anormais. Técnicas: Redes neurais artificiais Expectativa-Maximização Clusterização 6 www.acasadoconcurseiro.com.br
Questões 1. (2018 CESGRANRIO Petrobras Analista de Sistemas Júnior Processos de Negócio) Dois funcionários de uma empresa de crédito discutiam sobre quais algoritmos deveriam usar para ajudar a classificar seus clientes como bons ou maus pagadores. A empresa possui, para todos os empréstimos feitos no passado, um registro formado pelo conjunto de informações pessoais sobre o cliente e de como era composta a dívida inicial. Todos esses registros tinham classificações de bons ou maus pagadores, de acordo com o perfil de pagamento dos clientes. A partir desses dados, os funcionários querem construir um modelo, por meio de aprendizado de máquina, que classifique os novos clientes, que serão descritos por registros com o mesmo formato. A melhor opção, nesse caso, é usar um algoritmo a) supervisionado, como SVM b) supervisionado, como K-means c) não supervisionado, como regressão linear d) não supervisionado, como árvores de decisão e) semi-supervisionado, como redes bayesianas 2. (2018 CESPE TCM-BA Auditor Estadual de Controle Externo) A respeito das técnicas e(ou) métodos de mineração de dados, assinale a opção correta. a) O agrupamento (ou clustering) realiza identificação de grupos de dados que apresentam coocorrência. b) A classificação realiza o aprendizado de uma função que pode ser usada para mapear os valores associados aos dados em um ou mais valores reais. c) A regressão ou predição promove o aprendizado de uma função que pode ser usada para mapear dados em uma de várias classes discretas definidas previamente, bem como encontrar tendências que possam ser usadas para entender e explorar padrões de comportamento dos dados. d) As regras de associação identificam grupos de dados, em que os dados têm características semelhantes aos do mesmo grupo e os grupos têm características diferentes entre si. e) Os métodos de classificação supervisionada podem ser embasados em separabilidade (entropia), utilizando árvores de decisão e variantes, e em particionamento, utilizando SVM (support vector machines). Gabarito: 1. A 2. E www.acasadoconcurseiro.com.br 7