Análise Exploratória de Dados



Documentos relacionados
Introdução ao STATA vs. 9 (Banco de Dados)

Introduçã. ção o ao STATA. ção o ao STATA. Tania Guillén de Torres (tguillen@iesc.ufrj.br) Rejane Sobrino Pinheiro

Janelas de aplicação 18 Janela de execução de um comando 21. Construção de uma tabela de dados: Data Editor

APOSTILA DO MINICURSO MICRODADOS COM O USO DO STATA

ANÁLISE DE DADOS. Familiarização com o SPSS

Stata versão10 Noções básicas

SPSS Statistical Package for the Social Sciences Composto por dois ambientes:

Stata O que é o Stata

Análise Exploratória de Dados

2008 Mini-manual do SAS

Linguagem R R-Gui e R-Commander

Profª Drª Alcione Miranda dos Santos Departamento de Saúde Pública UFMA Programa de Pós-Graduação em Saúde Coletiva-UFMA

Exercício de Estatística

I- Estatística Descritiva Exercícios

DELEGAÇÃO DE TETE CAPACITAÇÃO INTERNA DO CORPO DOCENTE/ FEVEREIRO DE 2015

Roteiro para a construção do gráfico seqüencial

Usando o do-file editor Automatizando o Stata

Apostila Stata. O que é o Stata

RESUMO DA AULA PRÁTICA DE EXCEL

Probabilidade e Estatística I Antonio Roque Aula 8. Introdução ao Excel

Linguagem R R-Gui e R-Commander

TUTORIAL PARA PREPARAÇÃO E IMPORTAÇÃO DE DADOS PARA. Os dados de suas coletas devem ser organizados em uma planilha eletrônica, de modo

IMES Catanduva. Probabilidades e Estatística. no Excel. Matemática. Bertolo, L.A.

EXERCÍCIOS EXERCÍCIOS. Definições Básicas. Definições Básicas. Definições Básicas. Introdução à Estatística. Dados: valores de variáveis observadas.

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

PARA A CONSTRUÇÃO DOS GRÁFICOS

1. ROTEIRO DE USO DO CORISCO Para usar o CoRisco, e gerar os seus próprios modelos de risco, você deve seguir o roteiro:

APOIO À ATIVIDADE DE ANÁLISE DESCRITIVA DESENVOLVIDA NA OFICINA ESTATÍSTICA PARA TODOS"

APOSTILA DE EXCEL 2007

ÍNDICE GERAL MANIPULAÇÃO DE ARQUIVOS EDIÇÃO DE MATRIZES DE DADOS CÁLCULO ENTRE VARIÁVEIS...18

FSP/USP. HEP5800 Bioestatística_2011 Denise Pimentel Bergamaschi

OPENOFFICE PLANILHA SEMANA 4

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Aula 02 Excel Operações Básicas

UNIVERSIDADE GAMA FILHO Laboratório de Controle I - MATLAB

MICROSOFT OFFICE EXCEL 2007

Esta aplicação permite desempenhar tarefas relacionadas com o cálculo, análise e apresentação gráfica de dados, de uma forma rápida e eficaz.

Análise Exploratória de Dados

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

Estatística Usando EXCEL

QUALITATIVA VARIÁVEL QUANTITATIVA

Capítulo 7 Medidas de dispersão

&XUVRGH,QWURGXomRDR (GLWRUGH3ODQLOKDV([FHO

Módulo de Topografia Avançada. Curvas de nível.

UNIVERSIDADE FEDERAL DE SANTA CATARINA CENTRO TECNOLÓGICO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA ANÁLISE ESTATÍSTICA USANDO O STATISTICA

Manual de Configuração de Exportação/Importação de arquivos (MultiSET/SISCEL)

Construção do Boxplot utilizando o Excel 2007

Como incluir artigos:

INE Procedimentos de Análise Bidimensional de variáveis QUANTITATIVAS utilizando o Microsoft Excel. Professor Marcelo Menezes Reis

Curso Básico SPSS 7.5

ORGANIZAÇÃO DESTINATÁRIOS

Usando o Excel ESTATÍSTICA. A Janela do Excel Barra de título. Barra de menus. Barra de ferramentas padrão e de formatação.

1. FUNÇÕES NO EXCEL 2007

Tabela e Gráficos Dinâmicos Como estruturar dinamicamente dados no Excel

WORKSHOP Ferramenta OLAP IBM Cognos

SisDEA Home Windows Versão 1

Apresentação de Dados em Tabelas e Gráficos

Computação Científica com MATLAB. Melissa Weber Mendonça

Estatística no EXCEL

Folha de Apoio - Iniciação ao SPSS

Atividade 4 - Acerte no alvo

Microsoft Access: Criar relatórios para um novo banco de dados. Vitor Valerio de Souza Campos

CRIAÇÃO DE RELATÓRIOS EM DELPHI

APLICAÇÃO DE TÉCNICAS ESTATÍSTICAS UTILIZANDO O SISVAR

Licenciatura em Engenharia Informática Departamento de Engenharia Informática Instituto Superior de Engenharia do Porto

Excel Planilhas Eletrônicas

Análise descritiva de Dados. a) Média: (ou média aritmética) é representada por x e é dada soma das observações, divida pelo número de observações.

Mozart de Melo Alves Júnior

Banco de Dados Microsoft Access: Criar tabelas

Montar planilhas de uma forma organizada e clara.

Banco de Dados Microsoft Access: Criar tabelas. Vitor Valerio de Souza Campos

Importação de Dados no Sphinx

3 Resumo de dados com Tabelas e Gráficos dinâmicos

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Revisão de Probabilidade e Estatística

Tarefa 18: Criar Tabelas Dinâmicas a partir de Listas de Excel

Basicão de Estatística no EXCEL

Universidade de São Paulo/Faculdade de Saúde Pública Curso de Saúde Pública Disciplina: HEP 147 Informática I. Aula Excel

Capítulo 2. VARIÁVEIS DO TIPO INTEIRO

Aula de Laboratório: Iniciação ao Protégé/Frames

MANUAL DE UTILIZAÇÃO

ANÁLISE DE DADOS ESTATÍSTICOS COM O MICROSOFT OFFICE EXCEL 2007

Este tutorial tem o objetivo de registrar os passos para a espacialização de informações georeferenciadas a partir de planilhas de arquivos e os

UFERSA Universidade Federal Rural do Semi-Árido. R Project R Project Criando e manipulando objetos.

EXCEL Público Alvo: Arquitetos Engenheiros Civis Técnicos em Edificações Projetistas Estudantes das áreas de Arquitetura, Decoração e Engenharia

Factor Analysis (FACAN) Abrir o arquivo ven_car.sav. Clique Extraction. Utilizar as 10 variáveis a partir de Vehicle Type.

Table of Contents. PowerPoint XP

4. Dados bivariados. Seleccionar as células que contêm os dados, organizados em 2 colunas;

AULAS 04 E 05 Estatísticas Descritivas

Instruções de uso do TABNET. Linha, Coluna e Conteúdo

Funções básicas Cronograma Cronograma Funções Básicas

Estatísticas Nacionais do (VoIP) Manual do Usuário Estatísticas do

DBDesigner 4. NomeFunc 1,N FUNCIONÁRIO. CargaHoraria. MatrFunc

Histogramas. 12 de Fevereiro de 2015

AULA 6 - Operações Espaciais

Associação Educacional Dom Bosco Curso de Engenharia 1º ano

Índice: Caderno de Exercícios Microsoft Excel 2003

Lidar com números e estatísticas não é fácil. Reunir esses números numa apresentação pode ser ainda mais complicado.

MICROSOFT EXCEL AVANÇADO

Transcrição:

Universidade Federal do Rio de Janeiro Faculdade de Medicina Departamento de Medicina Preventiva Instituto de Estudos em Saúde Coletiva Disciplina: Construção e Análise de Bases de Dados em Saúde Análise Exploratória de Dados Tania Guillén de Torres Rejane Sobrino Pinheiro 2009

Análise Descritiva ou Análise Exploratória de Dados Conjunto de técnicas de resumo de dados para identificação de padrões nesses dados. Análise Univariada Consiste na análise de cada variável separadamente, sintetizando seus conteúdos, para estudar a ocorrência de um padrão no conjunto de dados, tanto da variável resposta, quanto das fatores explicativos. A análise exploratória inicial pode ser realizada a partir de tabelas, gráficos e medidas de resumo. Estas técnicas dependem basicamente do tipo de variável. Abrir o banco de dados leucemia_wbc.dta Selecionando pelo Menu do Stata: File open <drive>:\<diretório>\ leucemia_wbc.dta. use "C:\DATA\leucemia_wbc.dta", clear (Leukemia Remission Study) Descrever um banco de dados Antes de realizar a análise, é interessante conhecer as variáveis, seu tipo e tamanho, o que pode ser feito com o comando describe. Data Descrive data Descrive variables in memmory. describe Contains data from E:\Regressao\Introd_Stata9\leucemia_wbc.dta obs: 42 Leukemia Remission Study vars: 8 5 Aug 2008 19:49 size: 1,008 (99.9% of memory free) ------------------------------------------------------------------------------- storage display value variable name type format label variable label ------------------------------------------------------------------------------- weeks byte %8.0g Weeks in remission relapse byte %8.0g yesno Relapse trtment byte %8.0g trtment Treatment logwbcc float %9.0g White blood cell count (ln) sex byte %8.0g sexlbl Sex trtwbcc float %9.0g trtment x logwbcc lgwbccat float %9.0g wbc trlwbcat float %9.0g ------------------------------------------------------------------------------- Sorted by: Tania Guillén de Torres 2

1. Tabelas de freqüência 1.1 - Variáveis Categóricas ou quantitativas discretas com poucos valores: TABULATE ou tab Comando que gera tabelas de freqüências, apresentando, no caso de tabelas univaridas, a freqüência absoluta, a porcentagem e a porcentagem acumulada de cada categoria da variável. Existem diferentes comandos para diferentes tipos de tabelas; os mais comuns são: Tabelas Univariadas. Na barra de ferramentas selecione as seguintes opções: Statistics Summary, tables & Tests Tables Oneway tables Na janela [tabulate1 One-way tables] selecione ou escreva o nome da variável (relapse) na opção [Categorical variable] e confirme a operação apertando [OK]. tabulate relapse Relapse Freq. Percent Cum. 0:no 12 28.57 28.57 1:yes 30 71.43 100.00 Total 42 100.00. tabulate trtment Treatment Freq. Percent Cum. 0:treat 21 50.00 50.00 1:plcebo 21 50.00 100.00 Total 42 100.00. tabulate sex Sex Freq. Percent Cum. 0:female 22 52.38 52.38 1:male 20 47.62 100.00 Total 42 100.00 No caso de tabelas de variáveis categóricas, observar que a freqüência acumulada não faz sentido (retirar esta coluna de um relatório). Para variáveis ordinais, a freqüência acumulada pode ser mantida na tabela. Na janela de comandos pode digitar o comando tab1 seguido de uma lista de variáveis para gerar tabelas univariadas para cada uma das variáveis da lista. Sintaxe: tab1 varlist [if exp] [, missing nolabel plot ] [by varlist:] tabulate varname Tania Guillén de Torres 3

Algumas opções: if exp condição de seleção dos registros que serão computados na tabela missing inclui missing values para o cálculo da tabela nolabel apresenta somente os códigos numéricos, omitindo o rótulo dos códigos. by varlist: - executa o comando tabulate para cada uma das categorias da varlist. Exemplo:. tab1 trtment relapse -> tabulation of trtment Treatment Freq. Percent Cum. 0:stand 21 50.00 50.00 1:trt 21 50.00 100.00 Total 42 100.00 -> tabulation of relapse Relapse Freq. Percent Cum. 0:no 12 28.57 28.57 1:yes 30 71.43 100.00 Total 42 100.00 1.2 - Variáveis Quantitativas (Contínuas e discretas com muitas observações): A distribuição de freqüências de uma variável quantitativa deve ser realizada de modo diferente do que é feito para variável categórica. Deve-se tabular as freqüências de intervalos de valores e não de cada valor da variável (as tabelas ficam imensas, com freqüências baixas para muitos valores diferentes, não auxiliando no resumo da informação contida na variável). Para isso, devemos criar nova variável que conterá os intervalos de classe da variável original (usando o comando generate. egen float logwccat = cut(logwbcc), at(0,2.3,3,5.1) icodes ). tab lgwbccat lgwbccat Freq. Percent Cum. Low 11 26.19 26.19 Medium 14 33.33 59.52 :High 17 40.48 100.00 Total 42 100.00 Tania Guillén de Torres 4

2. Medidas de resumo (tendência central e dispersão) SUMMARIZE Este comando resume uma variável numérica, produzindo estatísticas para as medidas de tendência central e de dispersão. Na barra de ferramentas do Stata, selecione a seguinte seqüência: Statistics Summary, tables & Tests Summary Statistics Summary Statistics Sintaxe: sum <variável> [,detail] O comando summarize produz algumas estatísticas: média e desvio padrão, valores mínimo e máximo. Para obtenção de maiores detalhes, incluindo outras estatísticas (mediana, percentis, simetria, kurtose, etc.), usa-se o complemento do comando:,detail.. summarize logwbcc weeks Variable Obs Mean Std. Dev. Min Max ---------------------- logwbcc 42 2.930238.9175218 1.45 5 weeks 42 12.88095 9.347498 1 35. summarize logwbcc, detail White blood cell count (ln) ------------------------------------------------------------- Percentiles Smallest 1% 1.45 1.45 5% 1.5 1.47 10% 1.97 1.5 Obs 42 25% 2.3 1.78 Sum of Wgt. 42 50% 2.8 Mean 2.930238 Largest Std. Dev..9175218 75% 3.49 4.43 90% 4.36 4.48 Variance.8418463 95% 4.48 4.91 Skewness.5001882 99% 5 5 Kurtosis 2.561483. sum weeks, detail Weeks in remission ------------------------------------------------------------- Percentiles Smallest 1% 1 1 5% 2 1 10% 3 2 Obs 42 25% 6 2 Sum of Wgt. 42 50% 10.5 Mean 12.88095 Largest Std. Dev. 9.347498 75% 19 32 90% 25 32 Variance 87.37573 95% 32 34 Skewness.8759887 99% 35 35 Kurtosis 2.870037 Tania Guillén de Torres 5

3. Gráficos Graph O comando graph é o responsável pela construção de gráficos no Stata. Porém, os gráficos no Stata requerem certa sofisticação para serem gerados, que varia dependendo do tipo de variável. 3.1 - Gráficos de variáveis categóricas Para o Stata gerar gráficos de variáveis categóricas, é necessário que sejam fornecidos alguns dados, diferentemente de outros pacotes e planilhas. Gráfico de Setores Graphs Pie chart Na janela [graph pie Pie chart] escolha a janela [main], no quadro Pie chart escolha a opção ( ) Graph by categories e na janela [Category variable] selecione a variável categórica a ser representada (treatment). Tania Guillén de Torres 6

0:stand 1:trt Gráfico de Barras Graphics Easy graphs Bar chart Na janela [graph bar Bar chart] escolha a janela [main], no quadro Statistics escolha a opção ( ) Count nonmissing e na janela [Variable] selecione a variável categórica um (gerar essa variável antes, com o comando generate), na janela [Over] no quadro [Over1] selecione na opção [Variable] a variável categórica a ser representada (sex).. gen um=1 Tania Guillén de Torres 7

. graph bar (count) um, over(sex) count of um 0 5 10 15 20 0:female 1:male 3.2 - Gráficos para variáveis contínuas ou discretas com muitos valores Para a construção de gráficos de variáveis quantitativas, o comando graph requer informações sobre o número de intervalos em que a variável será dividida para a representação. Outras informações sobre legendas, títulos, escalas e nomes dos eixos X e Y podem ser fornecidos no mesmo comando que gera o gráfico. Histograma Graphics Histogram. histogram logwbcc (bin=6, start=1.45, width=.59166666) Tania Guillén de Torres 8

Density 0.1.2.3.4.5 1 2 3 4 5 White blood cell count (ln) Plotando junto a curva normal:. histogram logwbcc, normal (bin=6, start=1.45, width=.59166666) Density 0.1.2.3.4.5 1 2 3 4 5 White blood cell count (ln) Tania Guillén de Torres 9

Box Plot Graphics Box plot. graph box logwbcc, medtype(line) White blood cell count (ln) 1 2 3 4 5 Análise Bivariada Na análise exploratória bivariada, estamos interessados em estudar a relação ou associação entre duas variáveis. Podemos analisar a associação entre dois fatores de interesse ou entre um fator e a variável resposta. Do mesmo modo que na univariada, as técnicas empregadas na análise bivariada dependem do tipo de variável. Utilizamos em análises iniciais as tabelas, medidas de resumo e gráficos. 1. Tabelas de dupla entrada Assim como nas tabelas de freqüência de uma única variável, as tabelas de dupla entrada vão apresentar também alguma variação em função do tipo de variável que está representando. 1.1 - Tabelas de duas variáveis categóricas: Usa-se o mesmo comando TABULATE utilizado para construir tabelas para uma única variável. Statistics Summary, tables & Tests Tables Twoway tables with measures of Associations Sintaxe: tab <variável 1 - linha > <variável 2 - coluna > [, row col cel] Algumas opções: cell apresenta a freqüência relativa geral de cada célula em uma bivariada. column - apresenta a freqüência relativa de cada célula em relação às células de toda a coluna de uma tabela bivariada.

row - apresenta a freqüência relativa de cada célula em relação a todas às células de sua linha em uma tabela bivariada chi2 apresenta o teste qui-quadrado de Pearson para a hipótese de independência entre as variáveis de uma tabela bivariada.. tabulate sex relapse Relapse Sex 0:no 1:yes Total 0:female 6 16 22 1:male 6 14 20 Total 12 30 42 Fica difícil a interpretação desta tabela, uma vez que existem mais pacientes que recidivaram dentre as mulheres, mas também existem mais mulheres. Deste modo, é interessante calcular o valor relativo do número de observações em cada célula. Existem formas diferentes de realizar esta tarefa. Dependendo do denominador, o percentual diz respeito a um grupo de informação ou variável. Podemos calcular o percentual na linha, na coluna ou geral. No exemplo, o percentual na linha dá informação do percentual de pacientes que recidivaram dentre homens e mulheres (desfecho, nas categorias de exposição). O percentual na coluna mostra a distribuição de sexo (homens e mulheres) para o grupo que recidivou, e a distribuição de sexo para o grupo que não recidivou. O percentual geral mostra o percentual de cada célula em relação ao total de recém nascidos. Menos usado. Por exemplo, o percentual da primeira célula é o percentual das mulheres que não recidivaram em relação ao total de pacientes.. tabulate sex relapse, row col chi +-------------------+ Key ------------------- frequency row percentage column percentage +-------------------+ Relapse Sex 0:no 1:yes Total 0:female 6 16 22 27.27 72.73 100.00 50.00 53.33 52.38 1:male 6 14 20 30.00 70.00 100.00 50.00 46.67 47.62 Total 12 30 42 28.57 71.43 100.00 100.00 100.00 100.00 Pearson chi2(1) = 0.0382 Pr = 0.845

Com os percentuais, podemos interpretar mais facilmente a relação entre as variáveis. Por exemplo, no grupo das mulheres, o percentual de recidiva foi levemente superior (72.7%), comparado com os homens (70,0%). tab2 produz todas as possíveis tabelas 2 x 2 de uma lista de variáveis (não vamos comentar) Variáveis Ordinais: Podemos construir tabelas com variáveis ordinais também, de modo semelhante à construção de tabelas de 2 variáveis categóricas nominais.. tabulate lgwbccat relapse, row col chi +-------------------+ Key ------------------- frequency row percentage column percentage +-------------------+ Relapse lgwbccat 0:no 1:yes Total Low 7 4 11 63.64 36.36 100.00 58.33 13.33 26.19 Medium 4 10 14 28.57 71.43 100.00 33.33 33.33 33.33 :High 1 16 17 5.88 94.12 100.00 8.33 53.33 40.48 Total 12 30 42 28.57 71.43 100.00 100.00 100.00 100.00 Pearson chi2(2) = 10.9155 Pr = 0.004 1.2 - Tabelas de variável categórica contra variável quantitativa: Para resumir duas variáveis de tipos bem diferentes, como as categóricas e as quantitativas, podemos fazer a operação de 2 formas distintas: transformando a variável quantitativa em uma ordinal, como no item anterior, ou resumindo a variável quantitativa para cada categoria da variável categórica, o que pode ser realizado com o comando a seguir. TABSUM Este comando gera uma tabela apresentando a média, desvio padrão e o número de observações da variável contínua (varcont), para cada categoria da variável categórica (varcat). Ele funciona como o summarize para cada categoria da variável categórica.

tab <variável categórica>, sum(<variável quantitativa>) ou sort <variável categórica> by < variável categórica>: sum <variável quantitativa> [,detail] Neste comando também é possível usar a opção by.. para obter as medidas de resumo de uma variável contínua segundo as categorias de uma outra avariável categórica. by sex, sort : summarize logwbcc ------------------------------------------------------------------------------------- -> sex = 0:female Variable Obs Mean Std. Dev. Min Max ---------------------- logwbcc 22 2.835455.6714428 1.5 4.43 ------------------------------------------------------------------------------------- -> sex = 1:male Variable Obs Mean Std. Dev. Min Max ---------------------- logwbcc 20 3.0345 1.13863 1.45 5 Podemos obter as medidas mais detalhadas, marcando a opção Display additional statistics.. by sex, sort : summarize logwbcc, detail ---------------------------------------------------------------------------------- -> sex = 0:female White blood cell count (ln) ------------------------------------------------------------- Percentiles Smallest 1% 1.5 1.5 5% 2.05 2.05 10% 2.12 2.12 Obs 22 25% 2.31 2.16 Sum of Wgt. 22 50% 2.84 Mean 2.835455 Largest Std. Dev..6714428 75% 3.2 3.49 90% 3.52 3.52 Variance.4508355 95% 3.97 3.97 Skewness.3677286 99% 4.43 4.43 Kurtosis 3.154042 ---------------------------------------------------------------------------------- -> sex = 1:male White blood cell count (ln) ------------------------------------------------------------- Percentiles Smallest 1% 1.45 1.45 5% 1.46 1.47 10% 1.625 1.78 Obs 20 25% 2.105 1.97 Sum of Wgt. 20 50% 2.685 Mean 3.0345 Largest Std. Dev. 1.13863 75% 4.035 4.36 90% 4.695 4.48 Variance 1.296479 95% 4.955 4.91 Skewness.3054421 99% 5 5 Kurtosis 1.81508

1.3 - Tabulando 3 ou mais variáveis: Usar o mesmo comando Tabulate, indicando na opção by a 3ª. Variável. Statistics Summary, tables & Tests Tables Twoway tables with measures of Associations. by trtment, sort : tabulate sex relapse, chi2 column row ---------------------------------------------------------------------------------- -> trtment = 0:stand +-------------------+ Key ------------------- frequency row percentage column percentage +-------------------+ Relapse Sex 1:yes Total -----------+-----------+---------- 0:female 11 11 100.00 100.00 52.38 52.38 -----------+-----------+---------- 1:male 10 10 100.00 100.00 47.62 47.62 -----------+-----------+---------- Total 21 21 100.00 100.00 100.00 100.00 ----------------------------------------------------------------------------------

-> trtment = 1:trt +-------------------+ Key ------------------- frequency row percentage column percentage +-------------------+ Relapse Sex 0:no 1:yes Total 0:female 6 5 11 54.55 45.45 100.00 50.00 55.56 52.38 1:male 6 4 10 60.00 40.00 100.00 50.00 44.44 47.62 Total 12 9 21 57.14 42.86 100.00 100.00 100.00 100.00 Pearson chi2(1) = 0.0636 Pr = 0.801 Cruzando duas variáveis categóricas e resumindo uma 3 a. quantitativa Comando tables Permite construir tabelas para mais de 2 variáveis e incluir no corpo da tabela algumas estatísticas de interesse.

. table sex relapse, contents( mean logwbcc sd logwbcc median logwbcc p25 logwbcc p75 logwbcc ) ------------------------------ Relapse Sex 0:no 1:yes ----------+------------------- 0:female 2.585 2.929375.4253822.7323612 2.65 2.955 2.16 2.315 2.8 3.385 1:male 1.906667 3.517857.4243897.9934259 1.895 3.545 1.47 2.57 2.2 4.36 Incluindo os totais marginais:. table sex relapse, contents( mean logwbcc sd logwbcc median logwbcc p25 logwbcc p75 logwbcc ) row col ---------------------------------------- Relapse Sex 0:no 1:yes Total ----------+----------------------------- 0:female 2.585 2.929375 2.835454.4253822.7323612.6714429 2.65 2.955 2.84 2.16 2.315 2.31 2.8 3.385 3.2 1:male 1.906667 3.517857 3.0345.4243897.9934259 1.13863 1.895 3.545 2.685 1.47 2.57 2.105 2.2 4.36 4.035 Total 2.245833 3.204 2.930238.5381527.8994389.9175218 2.18 3.055 2.8 1.895 2.42 2.3 2.65 3.97 3.49 ----------------------------------------. Usando Gráficos na bivariada Uma variável quantitativa e uma categórica Podemos fazer um boxplot para cada categoria da variável categórica Graph Box plot (usar o by). graph box logwbcc, medtype(line) by(sex)

0:female 1:male White blood cell count (ln) 1 2 3 4 5 Graphs by Sex Duas variáveis quantitativas: O diagrama de espalhamento é uma ferramenta importante para explorar a associação entre duas variáveis quantitativas. Graph easy graph Scatter plot. scatter logwbcc weeks White blood cell count (ln) 1 2 3 4 5 0 10 20 30 40 Weeks in remission

Quando há várias variáveis quantitativas, podemos fazer uma matriz com diversos diagramas de espalhamento, o que ajuda muito a analisarmos a associação a cada duas variáveis. Não temos na base de dados do exemplo mais de duas variáveis quantitativas e repetiremos logwcc para exemplificar o comando apenas. Graphics Scatter plot matrix 0 5 40 Weeks in remission 20 5 0 W hite blood cell count (ln) 0 White blood cell count (ln) 5 0 20 40 0 5 0 Weeks in remission 5 White blood cell count (ln) 0 5 White blood cell count (ln) 0 0 20 400 5