Mas, para começar a aplicar métodos estatísticos, é preciso conhecer alguns conceitos básicos.

Documentos relacionados
um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos Aplicações em quase todas as áreas de

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

12/06/14. Estatística Descritiva. Estatística Descritiva. Medidas de tendência central. Medidas de dispersão. Separatrizes. Resumindo numericamente

12/06/14. Estatística Descritiva. Estatística Descritiva. Estatística Descritiva. Estatística Analítica (Inferência estatística/estatística indutiva)

Medidas Descritivas de Posição, Tendência Central e Variabilidade

ESTATÍSTICA: UMA RÁPIDA ABORDAGEM Prof. David B.

Medidas Descritivas de Posição, Tendência Central e Variabilidade

SS714 - Bioestatística

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz

3.1 - Medidas de Posição Medidas de Dispersão Quantis Empiricos Box-plots Graficos de simetria 3.

Estatística Descritiva

Adilson Cunha Rusteiko

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

CAP1: Estatística Descritiva para análise da variabilidade uma amostra de dados quantitativos

Cap. 6 Medidas descritivas

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

1 Estatística Descritiva

Estatística Aplicada

Para caracterizar um conjunto de dados é importante não só a média, mas também a dispersão dos valores em torno da média

Amostragem Aleatória e Descrição de Dados - parte I

Estatística

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Introdução à Estatística Estatística Descritiva 22

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística

Estatística Descritiva

Estatística Descritiva (I)

Química e Estatística

Análise de dados em Geociências

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ CAMPUS PONTA GROSSA METROLOGIA II

Tutorial para o desenvolvimento das Oficinas

ESTATÍSTICA PROFESSOR: ALEXSANDRO DE SOUSA

Conceito de Estatística

Estatística para Cursos de Engenharia e Informática

Fernando de Pol Mayer

Medidas de Posição ou Tendência Central

Prof. Lorí Viali, Dr.

ESTATÍSTICA DESCRITIVA

Prof. Lorí Viali, Dr.

Estatística: Objetivos e fundamentos

Estatística Descritiva (I)

ESTATÍSTICA DESCRITIVA

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística

BIOESTATÍSTICA. Unidade III - Medidas de Tendência Central e de Dispersão

CE001 Bioestatística. Prof. Cesar Augusto Taconeli. Curitiba-PR 2015

Prof. Lorí Viali, Dr. PUCRS Prof. Titular da FAMAT - Departamento de Estatística. Curso: Engenharia de Produção

ESTATÍSTICA DESCRITIVA

Estatítica Descritiva e Exploratória

Estatística Descritiva (I)

Bioestatística. Luiz Ricardo Nakamura Cristiane Mariana Rodrigues da Silva. Ciências biológicas a USP ESALQ. Estatística

Estatística Descritiva (aula 2) Curso de Farmácia Prof. Hemílio Fernandes

Prof. Dr. Engenharia Ambiental, UNESP

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso

ESTATÍSTICA Medidas de Síntese

2. Estatística Descritiva

Medidas de dispersão. 23 de agosto de 2018

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.

UAlg esght MEDIDAS DE LOCALIZAÇÃO E DISPERSÃO. Paulo Batista Basílio ( )

Estatística I Aula 2. Prof.: Patricia Maria Bortolon, D. Sc.

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

Métodos Quantitativos

Joaquim Neto Versão 1.0

Medidas Estatísticas NILO FERNANDES VARELA

Enrico Antonio Colosimo Depto. Estatística UFMG

Distribuição de frequências:

Aula 03: Dados Profa. Ms. Rosângela da Silva Nunes

Medidas-Resumo. Tipos de Variáveis

Domingo Braile FAMERP & UNICAMP

Curso de Metodologia da Pesquisa em Ciências da Vida. Tópicos em bioestatística fundamentais para o pesquisador em Ciências da Vida

CAD. 8 SETOR A AULAS 45-48

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.

Estatística Descritiva

Estatística Descritiva

Grupo A - I semestre de 2014 Lista de exercícios 2 - Introdução à Estatística Descritiva C A S A (gabarito)

Eng a. Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

Estatística Descritiva

CENTRO UNIVERSITÁRIO LEONARDO DA VINCI CURSO: ENGENHARIAS DISCIPLINA: ESTATÍSTICA E PROBABILIDADE ESTATÍSTICA APRESENTAÇÃO DOS DADOS

Descrevendo Distribuições com Números TADI

Medidas de Dispersão ou variabilidade

Comprovação Estatística de Medidas Elétricas

Estatística Descritiva

Estatística Computacional Profª Karine Sato da Silva

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

Medidas Resumo. Medidas de Posição/ Medidas de Dispersão. A intenção desse trabalho é introduzir os conceitos de Medidas de posição e de dispersão.

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados. Seção 3-1 Visão Geral. Visão Geral. Estatísticas Descritivas

Bioestatística. Aula 3. MEDIDAS SEPARATRIZES Quartis, Decis e percentis. Profa. Alessandra Bussador

AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

Estatística Descritiva

ESTATÍSTICA. PROF. RANILDO LOPES U.E PROF EDGAR TITO

TRATAMENTO DA INFORMAÇÃO

Excel INTERMEDIÁRIO Estatística. Prof. Cassiano Isler Turma 3

Probabilidade e Estatística. Prof. Dr. Jhames Sampaio

Análise descritiva de Dados. A todo instante do nosso dia-a-dia nos deparamos com dados.

Capítulo 1. Análise Exploratória de Dados

Notas de Aula. Estatística Elementar. by Mario F. Triola. Tradução: Denis Santos

Inferência Estatística. Medidas de Tendência Central Medidas de Variação Medidas de Posição

Conceitos básicos Revisão de estatística descritiva

Medidas resumo numéricas

Transcrição:

Na Criptologia, assim como em outras ciências, são realizados estudos experimentais ou obser vacionais que resultam numa coleção de dados numéricos. O propósito da investigação é responder uma questão científica onde o padrão de variação nos dados faz com que a resposta não seja óbvia. É aí que entra a estatística: padroniza os métodos para coleta e descrição dos dados e permite estabelecer evidências pró ou contra as questões que estejam sendo analisadas. Mas, para começar a aplicar métodos estatísticos, é preciso conhecer alguns conceitos básicos. Tipos de Dados Os dados podem ser classificados em dois grandes grupos: os dados qualitativos ou categóricos e os dados quantitativos ou numéricos. Os dados qualitativos, como diz o nome, referem-se a qualidades do objeto estudado (por exemplo, frequente ou raro). Os dados quantitativos podem ser discretos ou contínuos. Os dados quantitativos discretos são contagens ou números inteiros e os dados quantitativos contínuos representam valores numa escala contínua (por exemplo, altura, peso, volume, etc). Na criptologia (tanto na criptografia quanto na criptoanálise), os dados, na grande maioria das vezes, são dados quantitativos discretos (contagem de letras, de bytes, de bits, etc). Resumo numérico Para resumir numericamente dados qualitativos (por exemplo, se as letras forem classificadas em "mais frequentes", de "frequência média" e "raras"), pode-se usar a moda. A moda é dada pela categoria que possui o maior percentual de dados. No Português, a categoria da letra A é a moda porque é a letra mais frequente neste idioma (A = 14.63%, E = 12.57% e O = 10.73%). O gráfico de barras e o gráfico de setores (também conhecido como pizza) são os mais utilizados para representar o resumo numérico de dados qualitativos. 1 / 5

Para resumir numericamente dados quantitativos é preciso escolher medidas de locação ("qual é o tamanho dos números envolvidos?") e de dispersão ("quanta variação existe?") adequadas. Existem três escolhas principais para a medida de locação, os chamados "3 Ms". Estas medidas de locação estão ligadas a certas medidas de dispersão: Medida de Locação Dispersão Média (o valor 'médio') Desvio Padrão Mediana (o valor 'do meio') IQR M O histograma é um dos gráfico mais utilizado para representar o resumo numérico de dados quantitativos. A Variação Amostral Quando se coleta dados, estes devem ser classificados em categorias e contados. Se a população (coleção de unidades individuais) pesquisada for muito grande, podemos retirar uma amostra de dados, analisá-la e, eventualmente, tirar conclusões acerca da população usando a informação da amostra (este processo é chamado de inferência estatística). Vamos tomar como exemplo a análise da frequência de ocorrência das letras no Português. Não será preciso contar todas as letras de todos os textos que já tenham sido escritos - basta analisar uma amostra suficientemente grande para que as contagens reflitam a proporção "global". Geralmente considera-se que cerca de 100 objetos seja uma amostra confiável. Se forem contadas apenas as letras A, E, O, S e R de várias amostras de texto com 500 letras, poderemos realizar uma série de cálculos importantes. Veja a tabela abaixo: Texto 1 Texto 2 Texto 3 Texto 4 A 68 81 67 8 E 60 55 70 5 O 53 53 45 6 S 52 36 40 3 R 31 31 47 2 Total 264 256 269 2 Apesar dos dados estarem "bem arrumadinhos" numa tabela, a primeira impressão que se tem 2 / 5

é que as letras contadas nos quatro textos possuem uma distribuição muito diferente. Para testar se esta variação é significativa ou não, o que nos permite manter ou excluir determinados resultados, existem várias medidas mostradas a seguir. Média A média aritmética é uma medida de locação usada para resumir dados quantitativos aproximadamente simétricos. Para se obter a média aritmética de uma categoria basta somar suas frequências e dividi-las pelo total de contagens. Por exemplo, no total foram contadas 299 letras A em 4 amostras diferentes. A média das letras A é: f / n = 299 / 4 = 74.75 Na tabela abaixo encontram-se as médias de todas as letras analisadas: Letra Contagem Amostras Média A 299 4 74.75 E 237 4 59.25 O 218 4 54.50 S 166 4 41.50 R 136 4 34.00 A média arimética nos diz qual o valor aproximado que devemos esperar quando fazemos a contagem. Variância A variância é o desvio quadrático médio da média (creeeedo :wink: ) e é calculada da seguinte maneira: Soma de todos (valor encontrado - média) 2 ) / número de contagens - 1. Calculando a variância da letra A temos: (81-74.75) 2 + (67-74.75) 2 + (83-74.75) 2 + (68-74.75) 2 / 4-1 = 6.25 2 + (-7.75) 2 + (-8.25) 2 + (6.75) 2 / 3 = 39.06 + 60.06 + 68.06 + 45.56 / 3 = 212.74 / 3 = 70.91 A tabela a seguir mostra a variância (representada por s 2 ) de todas as letras contadas: A 70.91 E 62.25 Letra 3 / 5

O 83.66 S 51.66 R 78.66 O variância nos diz quanto, em média, os valores encontrados estão se afastando do valor esperado. Quanto menor a variância, mais próximos da média estão os dados. Como a variância é um valor quadrático, isto significa que seu valor é o quadrado da média de dispersão. Desvio Padrão O desvio padrão é a raiz quadrada da variância, ou seja, é o valor da média de dispersão. A letra A, por exemplo, mostrou uma variância = 70.91, o que nos fornece um desvio padrão s = raiz 70.91 = 8.42. O desvio padrão nos diz que podemos esperar contagens para a letra A entre 74.75-8.42 = 66.33 (média menos o desvio padrão) e 74.75 + 8.42 = 83.17 (média mais o desvio padrão). Os desvios padrão das letras contadas nos quatro textos são: Letra Desvio Padrão A raiz 70.91 = 8.42 E raiz 62.25 = 7.89 O raiz 83.66 = 9.15 S raiz 51.66 = 7.19 R raiz 78.66 = 8.87 A Mediana e a Amplitude Inter-Quartis Uma outra forma de sumarizar dados é em termos dos quantis ou percentis. Essas medidas são particularmente úteis para dados não simétricos. A mediana (ou percentil 50) é o valor que divide os dados ordenados ao meio, isto é, metade dos dados têm valores maiores do que a mediana e a outra metade tem valores menores do que a mediana. Adicionalmente, os quartis inferior e superior, Q1 e Q3, são definidos como os valores abaixo dos quais estão um quarto e três quartos, respectivamente, dos dados. Estes três valores são frequentemente usados para resumir os dados juntamente com o mínimo e o máximo. No caso da contagem da letra A em 4 textos diferentes de 500 letras, as frequências encontradas foram 68, 81, 67 e 83. Primeiramente, ordena-se as contagens: 67, 68, 81, 83. Depois calcula-se a mediana: número de contagens + 1 / 2 = 4 + 1 / 2 = 5 / 2 = 2.5 4 / 5

A mediana está exatamente entre o segundo e o terceiro valor, ou seja, entre 68 e 81. Neste caso, a mediana será 68 + (81-68) x 0.5 = 68 + 13 x 0.5 = 68 + 6.5 = 74.5 O quartil inferior, chamado de Q1, indica o ponto abaixo do qual se encontram 1/4 dos valores medidos e é calculado número de contagens + 1 / 4 = 4 + 1 / 4 = 5 / 4 = 1.25 Q1 está entre o primeiro e o segundo valor medido, ou seja, entre 67 e 68. Q1 = 67 + (68-67) x 0.25 = 67 + 1 x 0.25 = 67 + 0.25 = 67.25. O quartil superior, chamado de Q3, indica o ponto abaixo do qual se encontram 3/4 dos valores medidos e é calculado (número de contagens + 1) x 3 / 4 = (4 + 1) x 3 / 4 = 15 / 4 = 3.75 Q3 está entre o terceiro e o quarto valor medido, ou seja, entre 81 e 83. Q3 = 81 + (83-81) x 0.75 = 81 + 2 x 0.75 = 81 + 1.5 = 82.5. A medida de dispersão é a amplitude inter-quartis: IQR = Q3 - Q1. No exemplo da letra A, IQR = 82.5-67.25 = 15.25. A Moda A moda é o valor que ocorre com maior frequência. Em algumas contagens, como no caso da contagem da letras A, ocorre mais de um "pico". Neste caso, este conjunto de dados é chamado de multimodal (as contagens da letra A parecem ter moda ao redor de 60 e ao redor de 80). Nestes casos, é interessante separar amostras usando algum critério, por exemplo, separar vogais de consoantes. No Português, as letras mais frequentes, em ordem decrescente, são A, E, O, S, R, I, N, etc. A letra A é a mais frequente e é a moda do idioma. Se considerarmos apenas as vogais, a letra A continua sendo a moda, mas se considerarmos apenas as consoantes, a letra S será a moda. 5 / 5