Dan Reznik, PhD, Diretor Upper West Soluções 25 de junho de 2013 (c) 2013 UWS - - Não Distribuir 1
Dan Reznik (c) 2013 UWS - - Não Distribuir 2
Onde eu Morei (c) 2013 UWS - - Não Distribuir 3
Data Science (c) 2013 UWS - - Não Distribuir 4
Ecosistema de Data Analy]cs NEGÓCIOS - - Use Cases Governança DATA ANALYTICS - - - Exploração / Visualização Modelos / Algoritmos Data Quality, Master Data INFRA - - - SQL, NoSQL, NewSQL Scale- Out, Scale- Up, In- Memory Cloud, On Premises (c) 2012 UWS - - Não Distribuir 5
(c) 2013 UWS - - Não Distribuir 6
Abrir canais com Diretores Execu]vos e Gestores de Programa / Negócios Iden]ficar e priorizar use cases Selecionar novas tecnologias e processos Coordenar a abordagem e execução (c) 2013 UWS - - Não Distribuir 7
Dan Daniel Construção e Validação de use- cases analí]cos Data Quality Data & Text Mining, Semân]ca Analí]ca Predi]va Visualização Intera]va Aus]n Cloves Elaine Rodrigo (c) 2013 UWS - - Não Distribuir 8
Nosso Processo (c) 2013 UWS - - Não Distribuir 9
Processo de Data Analy]cs Entender Dados Monitorar Sistema Preparar Dados Meta de Negócios Por em Produção Desenvolver Algoritmos Avaliar Resultados (c) 2013 UWS - - Não Distribuir 10
Nossos Clientes Base Integrada do Cidadão (c) 2013 UWS - - Não Distribuir 11
Nossos Parceiros (c) 2013 UWS - - Não Distribuir 12
Outline Big Data em Junho de 2013 Projetos da Upper West Gov: Motor Predi]vo para base do STF Gov: Base Integrada do Cidadão Saúde: Busca Semân]ca, Laudos de Texto Seguros: Comparação entre Unidades de Saúde Resumo Aplicações para o Governo Aplicações para a Saúde An]fraude (c) 2013 UWS - - Não Distribuir 13
Big Data em Junho de 2013 Big Data = resultados a par]r de todos os dados e com rapidez O killer app é Data Analy>cs Projetos de Big Data que não dão certo focam em tecnologia e não no problema
Big Data (c) 2013 UWS - - Não Distribuir 15
3Vs Hadoop NoSQL MapReduce Hype Vendas Evolução Orgânica ROI What s the ROI? Volte aos Use Cases (c) 2013 UWS - - Não Distribuir 16
Estouro da Bolha (Microsos Research, Maio 2013) A maioria das tarefas analí]cas na Yahoo, Facebook, Microsos, Google, não lida com grandes massas de dados (sub- Tb). U]lizar clusters de dezenas ou até centenas de máquinas é sub- óp]mo. Clusters de produção (na Microsos e Yahoo) operam em massas de tamanho mediano de 14 Gb 90% das tarefas processadas pelo Facebook contém menos de 100 Gb de dados. Scale- out de 8 pior que único servidor scale- up 9 de cada 11 tarefas e só 5% pior nas duas tarefas restantes. Scale- ou de 16 pior em desempenho/$ e bem pior em desempenho/wax em todas as tarefas (c) 2013 UWS - - Não Distribuir 17
Paper da Microsos: Tarefa Mediana< 14Gb, 80% <1 TB (c) 2013 UWS - - Não Distribuir 18
Paper da Microsos: Desempenho Scale- Out/Scale- up (c) 2013 UWS - - Não Distribuir 19
Nosso Primeiro Projeto Motor de Recomendação Cliente: Peixe Urbano Datas: 2011-12 (c) 2013 UWS - - Não Distribuir 20
Arquitetura do Sistema Mobile Ofertas do Dia Motor de Recomendação Email Marke]ng Web Demografia Clicks Compras
Exemplo de Recomendação Porcão Spa 12 sessões Balanceamento Álbum de fotos Sushi Arvorismo Búzios Escova Marroquina Reordenação Balanceamento Spa 12 sessões Escova Marroquina Porcão Sushi Álbum de fotos Arvorismo Búzios userid: 1234 Compras: 10 * Automo]vo: 5 * Esté]ca: 3 * Gastronomia: 2
Mistura de Experts Expert em demografia w 1 Ofertas do dia (default ordering) Expert em histórico de compras w 2 S Ofertas do dia ordenadas por relevância Expert em preferencias, ra]ngs, marcas, social networks w 3
Subject personalizado Preview pane atraente Titulo personalizado Ofertas ordenadas por relevância
Governo #1: Motor Predi]vo para a Base do STF Cliente: Grande Fundação (c) 2013 UWS - - Não Distribuir 25
hxp://www.supremoemnumeros.com.br/i- relatorio- abril2011- o- mul]plo- supremo/ Base jurídica do STF de 1988 Bases: 20 Gb, 1.3M de processos, 14M de andamentos/dockets (c) 2013 UWS - - Não Distribuir 26
Idéia: Motor Predi]vo Tipos de processo Leis citadas Juiz, relator e/ou colegiado Região e corte de origem Número de li]gantes Motor Predi]vo Decisão favorável ou não Duração do processo Custo para a sociedade Próximo andamento Duração do próximo andamento Text Mining Base do STF (c) 2013 UWS - - Não Distribuir 27
Governo #2: Base Integrada do Cidadão Cliente: Governo Estadual Datas: 7/2013 em diante (c) 2013 UWS - - Não Distribuir 28
Deduplicação (c) 2013 UWS - - Não Distribuir 29
Consolidação entre Bases (c) 2013 UWS - - Não Distribuir 30
Consolidação II (c) 2013 UWS - - Não Distribuir 31
Arquitetura Atual (c) 2013 UWS - - Não Distribuir 32
Arquitetura via MDM (c) 2013 UWS - - Não Distribuir 33
Sistema MDM
Data Quality A>vidades Análise Saneamento (Cleansing) Enriquecimento Monitoramento Ferramentas Data Profiling Parsing / Standardiza]on Transformação Matching / Consolidação Enriquecimento Relatórios (c) 2013 UWS - - Não Distribuir 35
Saúde #1 Busca Semân]ca a Laudos de Texto Grande Hospital (SP) Datas: 3/2013 (c) 2013 UWS - - Não Distribuir 36
Ontologia DeCS (c) 2013 UWS - - Não Distribuir
Busca Exaus]va (c) 2013 UWS - - Não Distribuir
Resumo de um Paciente (c) 2013 UWS - - Não Distribuir
Saúde #2 Comparação de Unidades de Saúde Seguradora (RJ) Datas: 3/2013 (c) 2013 UWS - - Não Distribuir 40
SEGURADORA
Readmissions Cheap but ineffec]ve Worst performers Best performers Expensive but effec]ve Cost
Qualidade x Custo 600k sinistros de pacientes do Medicare nos EUA (Inpa]ent PUF 2008). Sinistro contém: procedimento, diagnós]co, dias de internação, sexo, idade, custo dias de internação é usado como qualidade (c) 2013 UWS - - Não Distribuir
Todos pacientes, operações plás]cas (N=33100) Log(Dias de Internação) 2.20 2.25 2.30 2.35 C4,N= 307 C2,N= 2727 C7,N= 12639 C1,N= 8923 C5,N= 4222 C9,N= 3042 C8,N= 608 C6,N= 58 boas C3,N= 450 C10,N= 124 ruim 9.30 9.32 9.34 9.36 9.38 9.40 Log(Custo) (c) 2013 UWS - - Não Distribuir
Só pacientes < 75 anos (N=17598) <= 74 anos, Log(Dias de Internação) 0.68 0.69 0.70 0.71 0.72 0.73 0.74 C4,N= 307 C2,N= 2727 boas C6,N= 58 C7,N= C8,N= 12639608 C10,N= 124 C5,N= 4222 C1,N= 4736 C9,N= 3042 C3,N= 450 ruim 9.30 9.32 9.34 9.36 9.38 9.40 Log(Custo) (c) 2013 UWS - - Não Distribuir
Só pacientes >= 75 anos (N=15502) >= 75 anos, N= 15502 C10,N= 51 Log(Dias de Internação) 0.80 0.85 0.90 C7,N= C5,N= C2,N= 5955 C1,N= 1952 1225 4187 C9,N= 1466 C8,N= 287 C4,N= 151 boas C3,N= 194 ruim C6,N= 34 9.30 9.32 9.34 9.36 9.38 9.40 9.42 Log(Custo) (c) 2013 UWS - - Não Distribuir
Data Analy]cs: Aplicações para a Saúde Iden]ficar paciente (evitar exames repe]dos) Golden Path: Iden]ficar médicos e/ou tratamentos mais eficazes Predizer surtos de doenças Iden]ficar pré- crônicos Evitar readmissões, acompanhar crônicos (c) 2013 UWS - - Não Distribuir 47
Rastreio de Fluxo de Pacientes (c) 2013 UWS - - Não Distribuir 48
Telemedicina / Wearables (c) 2013 UWS - - Não Distribuir 49
OPMEs com epedigree (c) 2013 UWS - - Não Distribuir 50
Data Analy]cs: Aplicações para o Governo Apoio quan]ta]vo a tomadas de decisão Eficiência num órgão, inteligência operacional Transparência Aumento da segurança, diminuição de crimes Diminuição de desperdícios, fraude, abusos (c) 2013 UWS - - Não Distribuir 51
(c) 2013 UWS - - Não Distribuir 52
Fraude contra o Governo nos EUA (c) 2013 UWS - - Não Distribuir 53
Sistemas An]fraude (Arnab Gupta, Opera Solu]ons) Resultados (de uma solução an]fraude) devem ser inteligíveis por não- técnicos Usabilidade mais importante que métodos Foco na produ]vidade dos analistas (Opera: 5x de aumento) (c) 2013 UWS - - Não Distribuir 54
Algoritmos de Comitê (c) 2013 UWS - - Não Distribuir 55
Predi]vos vs Cartoriais (por regras) (c) 2013 UWS - - Não Distribuir 56
UI u]lisável pelos analistas (c) 2013 UWS - - Não Distribuir 57
An]- Fraude Não Estruturados Estruturados Fontes Email SMS / Whatsapp Chamadas Mídias Sociais Comentários Blogs Registros financeiros Sinistros Pedidos, recibos Listas de funcionários & parceiros Métodos Tom emo]vo Classificação de Documentos Modelagem de Tópicos Extração de Conceitos Análise de Redes Sociais Modelagem Predi]va Testes de Cenário Análise temporal Anomalias Segmentação (c) 2013 UWS - - Não Distribuir 58
Fraude Novas Direções Precisão Baixa Alta Estruturados Não- estruturados Regras: - Filtragem - Grupos, - Casamentos Busca à palavras chave Esta>s>ca: - Anomalias - Segmentação, - Modelos de Risco - - - Mineração de Texto Busca Semân]ca Integração com Estruturados (c) 2013 UWS - - Não Distribuir 59
Fraude - Anomalias (c) 2013 UWS - - Não Distribuir 60
Fraude - Detecção Imediata (c) 2013 UWS - - Não Distribuir
Pagamentos Duplos (c) 2013 UWS - - Não Distribuir 62
Funcionário ~ Fornecedor (c) 2013 UWS - - Não Distribuir 63
Fraude: Análise de Redes (c) 2013 UWS - - Não Distribuir 64
Resumo Upper West Soluções Data Analy]cs, Data Quality Projetos que fizemos Aplicações Governo / Saúde / Seguradoras An]fraude (c) 2013 UWS - - Não Distribuir 65
Nosso site: www.upperwestsolucoes.com (c) 2013 UWS - - Não Distribuir 66
Contato: Dan Reznik, Diretor (21) 85 74 73 82 dan@upperwestsolucoes.com www.upperwestsolucoes.com (c) 2013 UWS - - Não Distribuir 67