pg Francisco 1 Louzada (USP) SINAPE São Pedro, 24-29 de setembro de 2018 FORMAÇÃO DO BACHAREL EM ESTATÍSTICA À LUZ DAS CIÊNCIAS DE DADOS Francisco Louzada CER-CEMEAI ICMC-USP
pg Francisco 2 Louzada (USP) RETROSPECTO Áreas de Aplicação da Estatística
pg Francisco 3 Louzada (USP) ESPORTES Previsão Jogos, Performa do Atleta ADIMINISTRAÇÃO/FINANÇAS Economia, marketing, Ciência da Computação CIÊNCIAS Quimica, Física, Astronomia MEDICINA & SAÚDE Ensaios Clínicos, Genética, Epidemiologia, farmacologia Áreas onde a ESTATÍSTICA é utilizada AMBIENTE Agricultura, Ecologia, Zoologia, Biologia etc Governo Censo, Defesa Nacional, Estratégias Economicas TECNOLOGIA Engenharias em Geral
pg Francisco 4 Louzada (USP) PREOCUPAÇÃO ANÁLISE PRIMÁRIA DOS DADOS 4 DADOS SÃO COLETADOS COM UMA QUESTÃO PARTICULAR (CONJECTURA) 4 PODE SER TRADUZIDA EM HIPÓTESES A SEREM TESTADAS
pg Francisco 5 Louzada (USP) Característica comum: O Tamanho dos Bancos de Dados POPULAÇÃO
pg Francisco 6 Louzada (USP) PROBLEMA!!!! (SITUAÇÃO ATUAL) Massa enorme de dados!!! NOTA: Slide do SINAPE 2000 (Caxambú)
pg Francisco 7 Louzada (USP) O TAMANHO DOS BANCOS DE DADOS Estima-se que 90% quantidade de dados no mundo hoje foram obtidos nos últimos 2 anos! Nos dias atuais, bancos de dados com Giga, Terabytes, Pentabytes são comuns!
pg Francisco 8 Louzada (USP) RESPONSÁVEIS Processos de coletagem automática de dados Instrumentação eletônica Transações on-line Dados históricos coletados ao longo de muitos anos
pg Francisco 9 Louzada (USP) RESPONSÁVEIS Sensores para captação de temperatura Posts/Fotos/Vídeos em sites de mídia social Transações de compras Sinais de GPS de celulares
pg Francisco 10 Louzada (USP)
pg Francisco 11 Louzada (USP) EXEMPLOS SERASA Transações diárias de uma base com mais de 170 milhões de CPFs UOL Mais de 50 Terabytes de dados diariamente! Caixa Económica Bancos de Dados com mais de 70 Terabytes
BIOMÉDICAS Presença de Grandes Base de Dados EXEMPLO Disfunção Auditiva: Tinnitus zumbido tem sido descrito como a percepção consciente de sons na ausência de uma fonte sonora externa. 30% da população geral INFORMAÇÃO Sinal biológico que é continuamente medido e monitorado. pg Francisco 12 Louzada (USP)
Pre-Post protocol workflow pg Francisco 13 Louzada (USP)
ECOLOGIA PROJETO: Soundscape Project Parceiros: VICG-ICMC-USP, Landim, Polytechnique School OBJETIVO: O estudo de sons ambientais para entender a dinâmica das relações homem-natureza em diferentes escalas é chamado de Ecologia Soundscape. Ondas sonoras Espectograma pg Francisco 14 Louzada (USP)
pg Francisco 15 Louzada (USP) QUESTÕES O que fazer como esta grande quantidade de dados? Como identificar e utilizar as informações escondidas nos dados? Como reverter estas informações em benefícios (Conhecimento útil)?
pg Francisco 16 Louzada (USP) DATA MINING / BIG DATA CUIDADO: Como Procurar? Procedimentos estatísticos devem ser devidamente adaptados a essa nova realidade.
pg Francisco 17 Louzada (USP) PROBLEMAS COM OS PROCEDIMENTOS ESTATÍSTICOS USUAIS QUANDO APLICADOS À GRANDES BANCOS DE DADOS ü O TAMANHO DO BANCO DE DADOS ü FIXAÇÃO DE ERROS ü DADOS CONTAMINADOS ü DADOS i i d ü NÃO ESTACIONARIEDADE ü No COVARIÁVEIS >>> No OBSERVAÇÕES ü VARIÁVEIS NÃO NUMÉRICAS
pg Francisco 18 Louzada (USP) Grandes Bases de Dados e seus 5 V s VOLUME Terabites/ exabites de dados existentes VELICIDDADE Dados de transmissão, milissegundos a segundos para responder VARIEDADE Dados estruturados, não-estruturados, text, multimídia VERACIDADE Inconsitências, ambiguidades, latência, dados faltantes etc VALOR Necessidade de gerar valor com os resultados obtidos
pg Francisco 19 Louzada (USP) Necessidade: Um novo profissional com múltiplas habilidades
pg Francisco 20 Louzada (USP) CIENTISTA DE DADOS Inferência Estatística Bancos de Dados Reconhecimento de Padrão/Inteligência Artificial Modelos de Regressão Algoritmo/ Estrutura de Programação Teoria dos Grafos Statistical Data Mining Pesquisa Operacional e Otimização Redes Complexas Amostragem/ Planejamento de Pesquisa Visualização de Dados/ Computacional Processamento em Paralelo
pg Francisco 21 Louzada (USP) Otimization OR
pg Francisco 22 Louzada (USP) Necessidade do Mercado: Analistas de Dados, Estatísticos, Matemáticos com Formação Diversificada que possam trabalhar com eficiência em ambiente multidisciplinar
CIENTISTAS DE DADOS PELO MUNDO pg Francisco 23 Louzada (USP)
pg Francisco 24 Louzada (USP) CIENTISTAS DE DADOS PELO MUNDO GRADUAÇÃO http://www2.warwick.ac.uk/fac/sci/statistics/courses/datsci/
pg Francisco 25 Louzada (USP) CIENTISTAS DE DADOS PELO MUNDO MESTRADO http://www.barcelonagse.eu/master-data-science.html
pg Francisco 26 Louzada (USP) CIENTISTAS DE DADOS PELO MUNDO DOUTORADO http://datascience.inf.ed.ac.uk
E AQUI NO BRASIL? pg Francisco 27 Louzada (USP)
pg Francisco 28 Louzada (USP) INEVITAVELMENTE PRECISAMOS PENSAR EM FORMAS DE SUPRIR ESTA DEMANDA, QUE, EM MUITOS CASOS TEM SIDO ATENDIDA (INEFICIENTEMENTE) POR PROFISSIONAIS DE OUTRAS ÁREAS DO CONHECIMENTO!
pg Francisco 29 Louzada (USP) ESTAMOS PREPARADOS PARA ENFRENTAR ESSA DEMANDA? O QUE TEMOS FEITO PARA ENFRENTAR ESSA DEMANDA?
pg Francisco 30 Louzada (USP) EMPRESAS COM 70 VAGAS PARA CIENTISTA DE DADOS!!!
pg Francisco 31 Louzada (USP) ALGUMAS POSSIBILIDADES INCIAIS... ü AÇÃO 1: ÊNFASE CIÊNCIAS DE DADOS ü AÇÃO 2: MESTRADO EM DATA SCIENCE ü AÇÃO 3: MBA EM DATA SCIENCE ü AÇÃO 4: GRADUAÇÃO EM DATA SCIENCE ü AÇÃO 5: MESTRADO/DOUTORADO EM DATA SCIENCE
pg Francisco 32 Louzada (USP) AÇÃO 1: ÊNFASE CIÊNCIAS DE DADOS IDÉIA q q DISCIPLINAS 1 2 3 4 5 6 7 8 9 Criação de uma ênfase envolvendo disciplinas do SME e SCC do ICMC. 5 alunos Estatística, 5 alunos Computação, 5 alunos Matemática Aplicada e Computação Científica INFERÊNCIA ESTATÍSTICA MODELOS DE REGRESSÃO MINERAÇÃO ESTATÍSTICA DE DADOS BANCOS DE DADOS ALGORITMOS/ESTRUTURA DE PROGRAMAÇÃO INTELIGÊNCIA ARTIFICIAL VISUALIZAÇÃO DE DADOS OTIMIZAÇÃO REDES COMPLEXAS
pg Francisco 33 Louzada (USP) AÇÃO 2: MESTRADO PROFISSIONAL MÓDULO DATA SCIENCE IDÉIA q Criação de um Módulo no Mestrado Profissional MECAI. DISCIPLINAS 1 2 3 4 5 6 7 8 9 INFERÊNCIA ESTATÍSTICA MODELOS DE REGRESSÃO MINERAÇÃO ESTATÍSTICA DE DADOS BANCOS DE DADOS ALGORITMOS/ESTRUTURA DE PROGRAMAÇÃO INTELIGÊNCIA ARTIFICIAL VISUALIZAÇÃO DE DADOS OTIMIZAÇÃO REDES COMPLEXAS
PROGRAMA DE MESTRADO PROFISSIONAL pg Francisco 34 Louzada (USP)
pg Francisco 35 Louzada (USP) Programa de Mestrado Profissonal 2014 (Agosto) u Mestrado Profissional em Matemática Aplicada, Estatística e Computação Aplicadas à Indústria - MECAI u 1º MÓDULO: FINANÇAS (a partir de agosto 2014) u 2º MÓDULO: DATA SCIENCE (a partir de agosto 2015) u 3º MÓDULO: DATA SCIENCE (a partir de agosto 2016) u 4º MÓDULO: DATA SCIENCE (a partir de agosto 2017) u 5º MÓDULO: DATA SCIENCE (a partir de agosto 2018)
ALUNOS DE MAIS DE 50 EMPRESAS/INSTITUIÇÕES DIFERENTES pg Francisco 36 Louzada (USP)
pg Francisco 37 Louzada (USP) AÇÃO 3: MBA EM DATA SCIENCE UFBA u Especialização em Ciências de Dados e Big Data http://dsbd.leg.ufpr.br UFPR u Especialização em Ciências de Dados e Big Data http://dsbd.leg.ufpr.br
pg Francisco 38 Louzada (USP) AÇÃO 4: GRADUAÇÃO EM DATA SCIENCE GRUPO DE PESQUISA GRUPO DE CIÊNCIA DE DADOS E ESTATÍSTICA (G-CIDES) DEPARTAMENTO DE MATEMÁTICA APLICADA E ESTATÍSTICA DEPARTMENTO DE COMPUTAÇÃO ICMC-USP
pg Francisco 39 Louzada (USP) G-CiDES Linhas de pesquisa ü Visualização de dados ü Aprendizado de Máquina ü Mineração de dados ü Modelos estatísticos para Big data Labs ü Estatística ü CER (UFSCar, USP, Saúde, UFBA) ü Visualization, Imaging and Computer Graphics Lab
pg Francisco 40 Louzada (USP) G-CiDES Principal Projeto ü Elaboração de uma proposta de curso/ reformulação de curso de Bacharelado em Estatística, orientado à Ciência de Dados e Estatística
pg Francisco 41 Louzada (USP) DISCIPLINAS NO BACHARELADO EM CIÊNCIAS DE DADOS E ESTATÍSTICA OBRIGATÓRIAS ü Técnicas de Preparação e exploração de dados ü Análise de Regressão e Aprendizagem Supervisionada ü Análise Multivariada e Aprendizagem Não-Supervisionada ü Modelos Lineares Generalizados e Aprendizagem Supervisionada ü Tópicos em Aprendizado de Máquina ü Séries Temporais e Aprendizado Dinâmico ou outra Optativa eletiva
pg Francisco 42 Louzada (USP) DISCIPLINAS NO BACHARELADO EM CIÊNCIAS DE DADOS E ESTATÍSTICA OPTATIVAS ü Coleta e Manipulação de Dados em Larga Escala ü Mineração Web e de Texto ü Reconhecimento de Padrões utilizando Aprendizado Profundo ü Inteligência Artificial ü Tecnicas de Aprendizado Dinâmico ü Redes Complexas ü Análise de dados com base em processamento massivo em paralelo
pg Francisco 43 Louzada (USP) CURIOSIDADE PESQUISA Pesquisa com mais de 700 cientistas de dados Feito pelo kdnuggets.com (um dos principais portais de ciência de dados)
pg Francisco 44 Louzada (USP) CURIOSIDADE PESQUISA Fonte: https://www.kdnuggets.com
pg Francisco 45 Louzada (USP) Citação A dificuldade não está tanto no desenvolvimento de novas ideias, mas como escapar das antigas. (John Maynard Keynes) https://www.youtube.com/watch?t=2&v=unntmdtlxdu
pg Francisco 46 Louzada (USP) MAS NÓS TAMBÉM PRECISAMOS DE DOCENTES ESPECIALIZADOS q CONTRATAÇÃO DE DATA SCIENTISTS q MATEMÁTICO/ESTATÍSTICO COM FORTE FORMAÇÃO COMPUTACIONAL q E EXPERIÊNCIA EM ANÁLISE DE DADOS REAIS ISTO É ASSUNTO PARA UMA OUTRA PALESTRA!
pg Francisco 47 Louzada (USP) MUITO OBRIGADO! www.mwstat.com/franciscolouzada