Visualização de dados Fundamentos, precauções e tendências Prof. Walmes Zeviani walmes@ufpr.br Departamento de Estatística Universidade Federal do Paraná
Sobre mim Formação Bel. em Agronomia - UFGD (2007). MSc. em Estatística & Experimentação Agropecuária - UFPR (2009). Dsc. em Estatística & Experimentação Agropecuária - UFPR (2013). Walmes Zeviani DEST/UFPR Visualização de dados 2
Sobre mim Atuação acadêmica Prof. Adjunto III - Departamento de Estatística - UFPR (2010 - hoje). Ensino: Estatística Computacional II - Bel. em Estatística). Controle de Processos Industriais - Bel. em Estatística). Planejamento e Análise de Experimentos - PP em Agro. e Prod. Vegetal. Assuntos diversos na Esp. em Data Science & Big Data. Projetos e contribuições: Ciência do solo, fitopatologia e eng. florestal (recente). Treinamentos em R, materiais de apoio e palestras. Walmes Zeviani DEST/UFPR Visualização de dados 3
Sobre mim Interesses Planejamento e análise de experimentos. Modelos de regressão, principalmente não linear. Manipulação e visualização de dados. Mineração de texto. Walmes Zeviani DEST/UFPR Visualização de dados 4
Sobre mim Contato Homepage: http://www.leg.ufpr.br/ walmes Email: walmes@ufpr.br Twitter: @walmeszeviani Instagram: @walmeszeviani Walmes Zeviani DEST/UFPR Visualização de dados 5
Por que Visualização de Dados é tão importante? Walmes Zeviani DEST/UFPR Visualização de dados 6
O poder de ver ale m The greatest value of a picture is when it forces us to notice what we never expected to see. John Tukey Estatı stico Visualization gives you answers to questions you didn t know you had. Ben Schneiderman Cientista da Computac a o Walmes Zeviani DEST/UFPR Visualizac a o de dados 7
O fenônemo Big Data Definição e desafios Big data: conjuntos de dados grandes ou complexos em que as abordagens tradicionais de processamento são inadequadas. Desafios: captura, armazenamento, beneficiamento, consulta, transferência, visualização, análise e privacidade. Figura 1. Os 8 V s do Big Data. Walmes Zeviani DEST/UFPR Visualização de dados 8
O fenônemo Big Data Algumas estatísticas 90% dos dados no mundo foram gerados nos últimos 2 anos! 2.5 bilhões de GB de novos dados ao dia! IoT: 1 trilhão de dispositivos conectados em 2015. Figura 2. Infográfico sobre tipos de dados em Big Data. https://www.sciencedaily.com/releases/2013/05/130522085217.htm Walmes Zeviani DEST/UFPR Visualização de dados 9
O fenônemo Big Data Comunicação The art of communication is the language of leadership. James Humes Acesso/inspeção de dados de forma visualmente disgestível. Gráficos bem elaborados são uma forma simples e poderosa de reconhecimento de padrões, extração de insights e comunicação. Walmes Zeviani DEST/UFPR Visualização de dados 10
Uma breve passagem pela história da Visualização de Dados Walmes Zeviani DEST/UFPR Visualização de dados 11
Linha do tempo da Visualização de Dados 1786 - Willian Playfair 1914 - Willard Brinton Graphic methods for presenting facts Visualização para negócios. Gráfico de linhas, barras, setores. 1858 - Florence Nightingale Diagamas coxcomb do exército britânico. 1983 - Edward Tufte The visual display of quantitative information Rigor estatístico, clareza, design. 1967 - Jacques Bertin Sémiologie graphique Teoria da vis. e 7 variáveis visuais. 1986 - Jock Mackinlay Tese sobre J. Bertin para a era da digital. 2010 - Ronald Rensink Percepção Lei de Weber Efetividade gráfica. 1900 2000 1854 - John Snow 1861 - Charles Minard Exército de Napoleão marcha para Rússia. Mapeamento e descoberta da fonte de cólera. 1952 - Mary Eleanor Spear Charting statistics Boas práticas no Governo Americano. 1970s - John Tukey Vis. com computadores e vis. exploratória e confirmatória. Hoje Recursos para construção de vis. Vis. interativa e em tempo real Dashboards 1999 - Leland Wilkinson The gammar of graphics Gramática concisa para repres. componentes gráficos. 1984 - W. Cleveland & R. McGill Medir percepção gráfica e vis. efetiva. Walmes Zeviani DEST/UFPR Visualização de dados 12
Linha do tempo da Visualização de Dados Figura 3. William Playfair (esq.), gráfico de barras (meio) e gráfico de linhas (dir.). 1786 - Willian Playfair produziu os primeiros gráficos de linhas, barras e setores. Walmes Zeviani DEST/UFPR Visualização de dados 13
Linha do tempo da Visualização de Dados Figura 4. John Snow e as ocorrências de óbito por cólera em Londres, 1854. 1854 - John Snow (médico britânico) descobre a fonte transmissora de cólera com uma representação no mapa das ocorrências dos óbitos. Walmes Zeviani DEST/UFPR Visualização de dados 14
Linha do tempo da Visualização de Dados Figura 5. Florence Nightingale e os diagramas de coxcomb. Florence Nightingale (enfermeira britânica) foi enfermeira voluntária na guerra da Crimeia (1853 a 1856). 1858 - Florence Nightingale produziu o coxcomb diagrams que mostrou o efeito devastador de doença sobre o exército britânico. Walmes Zeviani DEST/UFPR Visualização de dados 15
Linha do tempo da Visualização de Dados Figura 6. Charles Minard e a baixas da investida de Napoleão sobre o território da Rússia. 1861 - Charles Minard (eng. civil francês) publicou um diagrama exibindo as baixas no exército de Napoleão na marcha para a Russia. Walmes Zeviani DEST/UFPR Visualização de dados 16
Linha do tempo da Visualizac a o de Dados Figura 7. Pa ginas de Graphic Methods for presenting Facts. 1914 - Willard Brinton (engenheiro americano) publicou o Graphic Methods for presenting Facts, o primeiro livro de visualizac a o para nego cios. Walmes Zeviani DEST/UFPR Visualizac a o de dados 17
Linha do tempo da Visualizac a o de Dados Figura 8. Capa e dobras de Pratical Charting Statistics. 1952 - Mary Eleanor Spear publicou o Pratical Charting Statistics, boas pra ticas baseadas em de cadas de servic o no governo Americano. Walmes Zeviani DEST/UFPR Visualizac a o de dados 18
Linha do tempo da Visualização de Dados Figura 9. Jacques Bertin e sua obra em dois idiomas. 1967 - Jacques Bertin (cartógrafo francês) publicou Sémiologie Graphique, primeiro sobre teoria da visualização. Bertin descreveu 7 variáveis visuais (posição, tamanho, forma, cor, saturação, orientação e textura) e estabeleceu 2 princípios: o da expressividade e da efetividade. Walmes Zeviani DEST/UFPR Visualização de dados 19
Linha do tempo da Visualização de Dados Figura 10. John Tukey e a capa de seu livro. 1970s - John Tukey (matemático americano) foi o pioneiro no uso de computadores para visualização e popularizou o conceito de visualização exploratória e confirmatória. Tukey foi o criador do gráfico de caixas e bigodes ou boxplot. Walmes Zeviani DEST/UFPR Visualização de dados 20
Linha do tempo da Visualização de Dados Figura 11. Edward Tufte e sua obra. 1983 - Edward Tufte publicou o The visual display of quantitative information combinando rigor estatístico com clareza e princípios de design. Walmes Zeviani DEST/UFPR Visualização de dados 21
Linha do tempo da Visualização de Dados Figura 12. Ilustração de formas de percepção gráfica dos trabalhos de Cleveland e McGill. 1984 - Willian Cleveland e Robert McGill publicaram os primeiros artigos sobre percepção gráfica, buscando compreender como fazer visualizações efetivas. Walmes Zeviani DEST/UFPR Visualização de dados 22
Linha do tempo da Visualização de Dados Figura 13. Jock Mackinlay e o menu de opções de gráficos do Tableau. 1986 - Jock Mackinlay publicou sua Tese de PhD que levou o trabalho de Jacques Bertin para era digital. Hoje Mackinlay é vice presidente de P&D do Tableau. Walmes Zeviani DEST/UFPR Visualização de dados 23
Linha do tempo da Visualização de Dados Figura 14. Leland Wilkinson e as camadas na gramática de gráficos usado no pacote ggplot2. 1999 - Leland Wilkinson publicou o The Grammar of Graphics que estabeleu uma grámatica concisa para descrever os componentes de um gráfico. Walmes Zeviani DEST/UFPR Visualização de dados 24
Linha do tempo da Visualização de Dados 1990s 2000 - Ocorrem várias ramificações de abordagem para visualização de dados: abordagens orientadas a computadores, orientadas ao design e a comunidade científica. 2010s A internet social, softwares amigáveis e baratos, massiva disposição de dados democratiza a prática da visualização em todos os segmentos. Cria-se uma atmosfera propícia para experiências. Visualização não é mais uma província de experts, é um fenômeno. Hoje As experiências continuam um amplo espectro de disciplinas. Ferramentas para visualização continuamente evoluem. Representações gráficas mais apropriadas são desenvolvidas. Novas dimensões: animação, reatividade e interatividade. Valocidade e acesso: atualização em tempo real, relatórios web, aplicativos móveis, smart thigs. Monitoramento com dashboards. Walmes Zeviani DEST/UFPR Visualização de dados 25
Figura 15. Exemplo de dashboard. Walmes Zeviani DEST/UFPR Visualização de dados 26
Figura 16. Dashboard feito com o R. Walmes Zeviani DEST/UFPR Visualização de dados 27
Fundamentos importantes em Visualização de Dados Walmes Zeviani DEST/UFPR Visualização de dados 28
Construção Como linguagem Visualização de dados tem um papel crítico no jornalismo moderno: jornalismo de dados. Data storytelling com visualização cria uma impactante resposta na audiência. Fundamentos Conceito de camadas, estabalecimento de hierarquias e preconizar clareza. Desafiar o usuário a pensar sobre a substância ao invés da metodologia, design gráfico ou tecnologia usada para construção. Encorarar o olho a comparar e identificar padrões, revelar nos dados vários níveis de detalhes, de uma visão ampla até estatísticas minuciosas. The visual display of quantitative information - Edward Tufte. Walmes Zeviani DEST/UFPR Visualização de dados 29
Gráficos e infográficos Qual a diferença? Visualização de dados (data graphics). Entender tendências, padrões e relações. Instrumentos para raciocinar sobre a informação. Exibição visual de quantidades medidas mapeadas em atributos visuais, geométricos e estéticos. A mesma técnica de visualização pode ser reutilizada em muitos dados/contextos. Gráficos de informação (info graphics). Representação características específicas e informação processada. Instrumentos para comunicação visual da informação. Representação visual da informação, para mais ênfase ou compreensão. Podem ilustrar processos, fluxos, etc. O infográfico é especifíco de um contexto. Ambos podem ser estáticos, animados ou interativos. https://readwrite.com/2011/01/07/difference-between-datavisualization-infographics/ Walmes Zeviani DEST/UFPR Visualização de dados 30
Figura 17. Exemplos de infográficos. Walmes Zeviani DEST/UFPR Visualização de dados 31
Quando usar visualização de dados Absorver informação de forma rápida e criativa. Compreender relações, padrões e tendências. Identificar e agir sobre emergentes tendências rapidamente. Manipular e interagir diretamente com os dados. É a nova linguagem para comunicação entre pessoas na indústria orientada aos dados. Walmes Zeviani DEST/UFPR Visualização de dados 32
E para a área acadêmica Most of us need to listen to the music to understand how beautiful it is. But often that s how we present statistics: we just show the notes, we don t play the music. Hans Rosling Melhor compreensão dos fenômenos. Adoção de sensores: muitos dados representação suscinta. Geração e aperfeiçoamento de hipóteses e modelos conceituais. Maior impacto na comunicação dos resultados. Cativação dos revisores e da audiência. Walmes Zeviani DEST/UFPR Visualização de dados 33
Variáveis visuais Figura 18. Variáveis visuais de Bertin. https://library.ucalgary.ca/ld.php?content id=25052966 Walmes Zeviani DEST/UFPR Visualização de dados 34
Sobre a percepção/julgamento visual Como elas permitem julgar/perceber? Magnitude. Diferenças. Associação. Tendências. Pertencimento. Figura 19. As variáveis visuais. Walmes Zeviani DEST/UFPR Visualização de dados 35
Propriedades das variáveis visuais Seletiva - capaz de destacar um caso dos demais? Associativa - capaz de indentificar grupos? Quantitativa - capaz de dizer que algo é 3x que outro? Ordenativa - capaz de expressar a ordem, do menor para o maior? Diferenciativa/divisiva - quantas diferenças são possíveis detectar? https://library.ucalgary.ca/ld.php?content id=25052966 Walmes Zeviani DEST/UFPR Visualização de dados 36
Classificação Selet. Assoc. Quant. Orden. Divis. Tamanho ± 5/20 Posição Forma < 5 < 5 5/ Saturação 7/10 Cor ± ± 7/10 Ângulo 4/8 Textura https://library.ucalgary.ca/ld.php?content id=25052966 Walmes Zeviani DEST/UFPR Visualização de dados 37
Classificação pela adequabilidade das variáveis visuais Figura 20. Classificação das variáveis visuais quanto a adequabilidade para cada tipo de percepção. Walmes Zeviani DEST/UFPR Visualização de dados 38
Landscape de Recursos Gráficos do R Walmes Zeviani DEST/UFPR Visualização de dados 39
O landscape de recursos no R graphics Conjunto de recursos básicos e primitivos. Extendidos por pacotes como plotrix e gplots. Outputs gráficos de modelos (resíduos, dendrogramas, biplots, etc). lattice Desenvolvido por Deepayan Sarkar. Plotagem multipainel, mapeamento em cores, símbolos, etc. É parte do grupo de pacotes recomendados do R. Extendido com a latticeextra. Walmes Zeviani DEST/UFPR Visualização de dados 40
O landscape de recursos no R ggplot2 Desenvolvido por Hadley Wickham. É baseado na Grammar of Graphics. Plotagem multipainel, mapeamento em variáveis visuais, etc, equivalente a lattice. Porém, com uma sintaxe clara e concisa. Tem se tornado cada vez mais popular. Visualização com animação, reatividade ou interatividade: plotly, highcharter, googlevis, rcharts, leaflet, iplots, rgl, animation e outros. https://www.stat.ubc.ca/ jenny/stat545a/block90 baselatticeggplot2.html Walmes Zeviani DEST/UFPR Visualização de dados 41
O que você deve evitar The human eye is a wonderful device. With a little effort, it can fail to see even the most glaring injustice. Richard K. Morgan Altered Carbon Walmes Zeviani DEST/UFPR Visualização de dados 42
Figura 21. Gráfico de setores com perspectiva tridimensional gera distorção dos ângulos. Walmes Zeviani DEST/UFPR Visualização de dados 43
Figura 22. Comparação de comprimentos angulares é menos precisa, principalmente em uma perspectiva 3D. Walmes Zeviani DEST/UFPR Visualização de dados 44
Figura 23. Perpectiva 3D e pontos de fuga deformam o sistema de coordenadas e dificultam parceber comprimentos. Walmes Zeviani DEST/UFPR Visualização de dados 45
Figura 24. Mais do mesmo. Softwares comerciais de planilha eletrônica oferencem vários recusos gráficos tridimensionais com baixa efetividade. Isso popularizou ou mal uso de gráficos (availability bias). Walmes Zeviani DEST/UFPR Visualização de dados 46
Figura 25. Gráficos que violam os princípios de expressividade e efetividade. Walmes Zeviani DEST/UFPR Visualização de dados 47
Figura 26. A falta de sistema de coordenadas para compreensão da informação o torna simplesmente uma alegoria. Walmes Zeviani DEST/UFPR Visualização de dados 48
You can achieve simplicity in the design of effective charts, graphs and tables by remembering three fundamental principles: restrain, reduce, emphasize. Garr Reynolds Walmes Zeviani DEST/UFPR Visualização de dados 49
Considerações finais Numbers have an important story to tell. They rely on you to give them a clear and convincing voice. Stephen Few Esforce-se para compreender melhor os seus dados. Invista em recursos para manipulação e visualização de dados! Na pesquisa, uma apropriada visualização impacta mais do que múltiplas tabelas, testes e índices de ajuste. No R: aprenda os recursos básicos, depois vá para o ggplot2. Walmes Zeviani DEST/UFPR Visualização de dados 50
Pela oportunidade e atenção, agradeço. Prof. Walmes Zeviani walmes@ufpr.br Walmes Zeviani DEST/UFPR Visualização de dados 51