Relatório de estatística - Análise dos registros de alunos no Prouni no ano de 2016 Bruno H. Meyer & Gabriel Olescki Estatística II - CE003 Turma K Prof. Paulo Justiniano Ribeiro Lima 12 de dezembro de 2016 1 Introdução Neste relatório, será apresentado uma série de inferências estatísticas observando a base de dados de alunos bolsistas do programa Programa Universidade para Todos (Prouni) 1. Foi escolhida essa base de dados devida sua relevância; acreditamos que estudos em cima de registros de dados públicos de programas sociais ajudem a entender melhor a sua importância dentro da sociedade. 2 Materiais e métodos 2.1 Dados A base de dados, retirada da plataforma dados.gov.br(prouni, 2016), conta com mais de 10000 registros, entretanto devido a dificuldades encontradas para utilizar os softwares escolhidos para as análises estatística do software foi reduzida a quantidade de registros, de forma aleatória, para 8387. Trata-se de um arquivo do tipo CSV que armazena os dados em forma de tabela como em uma planilha. Os registros se referem a informações de candidatos que tiveram bolsas concedidas do Prouni no ano de 2016. Cada registro conta com: Ano de concessão de bolsa. Código e-mec da IES. Nome da instituição de ensino superior relacionada a bolsa concedida. 1 Programa do Governo Federal do Brasil criado com o objetivo conceder bolsas de estudo integrais e parciais em cursos de graduação e sequenciais de formação específica, em instituições privadas de ensino superior 1
Tipo da bolsa (Integral ou Parcial 50%). Modalidade de ensino (Presencial ou Educação a Distância). Nome do curso Turno do curso (matutino, vespertino, noturno, integral ou Curso a Distância). CPF do beneficiário (com alguns dígitos ocultos). Sexo do beneficiário (masculino ou feminino). Raça do beneficiário (branca, preta, parda, indígena). Data de nascimento do beneficiário. Beneficiário deficiente físico (sim ou não). Região do beneficiário. Sigla do estado do beneficiário. Município do beneficiário. De todos os campos destes registros, destaca-se a data de nascimento do beneficiário por ser a única variável quantitativa. Apesar de ser possível considerar outras variáveis como também quantitativas a data de ingresso é a variável mais fácil para se trabalhar nas análises pois não é necessário fazer "filtros"para a montagens de gráficos e medidas estatísticas. 2.2 Softwares utilizados Para realizar as análises dos dados foi escolhida a linguagem de programação R e a interface RStudio. Todos os gráficos presentes neste relatório foram gerados pelo programa citado e o link para o código-fonte e o arquivo CSV pode ser encontrado no final deste texto. 3 Análise descritiva dos dados 3.1 Análise da raça dos bolsistas Como ilustra 1 há uma distribuição não homogênea entre as quantidades de bolsas para as raças verificadas neste estudo. A predominância das bolsas são encontradas para estudantes brancos pardos e negros. Para as raças com mais registros verificamos uma frequência maior de bolsas integrais do que bolsas parciais como visto em 2. Na raça amarela vemos uma frequência de bolsas integrais menor do que a das três maiores enquanto na etnia indígena uma frequência maior. 2
Figura 1 Figura 2 3
3.2 Análise das regiões e estados Ao analisar a distribuição da amostra pelas regiões do país, nota-se uma predominância nas regiões sul e sudeste, ilustrada na figura 3. Isso se deve ao fato da maioria das grandes universidades do país estarem nestas regiões, principalmente na região sudeste. Ao observar os estados pelo tipo de bolsa, ilustrado na figura 4, nota-se uma predominância de bolsistas integrais (na cor preta) quando comparado aos bolsistas parciais 50% (cor cinza) em estados da região sul e sudeste, consideramos que isso está ligado ao fato do custo do ensino nessas regiões, por serem universidades maiores de de mais referências, o custo também é maior. É interessante também observar que no estado do Rio de Janeiro (RJ) e Amazonas (AM) há uma predominância muito mais significativa da população bolsista integral. Na figura 4 não foram listados alguns estados (GO, SE, ES, CE, etc.), isso se deve ao fato do histograma representar na largura o tamanho da amostra, então devido ao tamanho do gráfico gerado está representado apenas as maiores amostras. Nota-se também a predominância da amostra nos estados do RJ, SP, RS e SC, todos estados das regiões sul e sudeste. Figura 3 4
Figura 4 3.3 Idade dos bolsistas Ao observar os dados da coluna Idade, nota-se que são apresentados as datas de nascimento de cada inscrito do Prouni em 2016. Nota-se que a média das idades é de 24 (arredondando de 23.67104) e a variância de 46 (arredondado de 46.25106). Observando esses dados e a figura 5, verifica-se uma alta concentração de bolsistas na população variando entre 16 e 36 anos (limites do bloxplot), que seria a população mais jovem que se espera ingressar em uma graduação. Mas quando observamos, há vários pontos isolados fora do gráfico, trata-se de uma pequena população, dos 38 aos 68 anos, que ingressão em uma IES após uma idade mais avançada, mesmo sendo casos isolados percebe-se que há uma procura nessa idade. Os pontos fora do gráfico box-plot (figura 5), possuem um número maior que uma vez e meia a distancia entre o primeiro e terceiro quartis, 19 à 26 anos, mesmo possuindo vários pontos, eles ainda são minoria quando comparados com a amostra geral (8387 pessoas). 5
Figura 5 3.4 Relação de quantidade de bolsistas integrais e raça em cada estado Neste tópico buscamos verificar a existência da relação entre a quantidade de bolsistas integrais beneficiados e suas raças (foram desconsideradas as raças "Amarela"e "Indígena"devido a baixa quantidade na amostra). Chegamos à conclusão que há uma relação significativa entre a quantidade de bolsistas integrais em um estado e a proporção das raças nesse mesmo estado. Verificou-se duas características: quanto mais bolsistas integrais em um mesmo estado, menor a proporção de pardos com este tipo de bolsa no mesmo estado como pode ser visto na figura 6; quanto mais bolsistas integrais em um estado, maior a proporção de bolsistas integrais brancos no mesmo como pode ser visto na figura 7. Na figura 8 não foi verificada uma relação significativa entre quantidade de bolsistas integrais num estado e bolsistas negros. 6
Os gráficos representados nas figuras 6, 7 e 8 descrevem a relação entre três variáveis: Estados, Raça, Tipo de bolsa. Cada ponto nos gráficos representa o número de bolsistas integrais no mesmo (eixo X) e a proporção de uma raça dentre os bolsistas nesse mesmo estado (eixo Y). Figura 6 7
Figura 7 Figura 8 4 Conclusão Neste trabalho, apesar da grande quantidade de colunas nos registros buscamos analisar as que forneciam relação mais relevante (Raça, Região, Estado, Idade, Tipo de bolsa). As análises de bi varáveis permitiram conclusões como : dentro da amostra observou-se uma maior quantidade de bolsas para as etnias Branca, Parda e Negra. Há uma concentração das bolsas para a região sul e sudeste, e em estados que possuem uma maior quantidade de bolsistas, a maior parte possua bolsa integral. Análises baseadas nas idades dos bolsistas da amostra demonstraram uma tendência dos beneficiários terem em média 24 anos, ou seja, aproximadamente 6 anos após esses estudantes saírem do ensino médio. Também, ao relacionar três variáveis (Tipo de bolsa, Estado, Etnia) pudemos verificar a ligação entre a quantidade da raça em um estado e o número de bolsistas integrais no mesmo. Dentro da amostra, quanto maior a predominância de pardos num estado, menos bolsas integrais no total são 8
observadas no mesmo, e o inverso vale para a etnia branca: quanto maior a predominância de brancos num estado, mais bolsistas integrais se verificam na mesma unidade federal. 5 Comentários Tivemos, inicialmente, pequenas dificuldades em manipular a linguagem R e o software RStudio, porém após um pequeno estudo foi possível dominar parcialmente as ferramentas. As análises de duas variáveis em conjunto foram as que tivemos menos dificuldade, porém foi difícil relacionar três variáveis devido a quantidades de comandos necessário no R. Outro problema encontrado no trabalho foi gerar quantificações pois as colunas dos registros eram apenas variáveis qualitativas nominais (com exceção da idade), porém a linguagem escolhida para o trabalho facilitou a solução. Referências CóDIGO em R dos gráficos gerados. [S.l.], 2016. Disponível em: <http:/- /www.inf.ufpr.br/bhm15/estatistica/>. Acesso em: 12.12.2016. Nenhuma citação no texto. PROUNI. 2016. Disponível em: <http://dados.gov.br/dataset/mec-prouni- /resource/891b7a7a-e9c1-45a9-bb47-ac89bd9613bc>. Acesso em: 09.12.2016. Citado na página 1. 9