5.1. Caso 1 Cálculo da Energia e Estrutura de Bandas de Nanotubos

Documentos relacionados
1.1. Motivação Objetivos

Computação de Alto Desempenho com Placas Gráficas para Acelerar o Processamento da Teoria do Funcional da Densidade

4 Descrição das Alterações para Aceleração do SIESTA por GPU

Nanotubos de Carbono. 2.1 A Geometria

2 Fundamentos Teóricos

é a saida do melhor individuo. A configuração de parâmetros da

3 Computação de Propósito Geral em Unidades de Processamento Gráfico

Organização de Computadores Processadores, Placa Mãe e Memória RAM. Professor: Francisco Ary Alves de Souza

Funcionalização de nanotubos de carbono: uma abordagem computacional

5.3 Folhas de Carbeto de Silício (SiC) adsorvida em Grafeno

Física Experimental III

Cap. 41 -Condução de eletricidade em sólidos

ESTUDO DE PROPRIEDADES ELETRÔNICAS DE NANOFIOS SEMICONDUTORES DE InAs

DESENVOLVIMENTO DE UM SOFTWARE DE GERAÇÃO E VISUALIZAÇÃO DE NANOESTRUTURAS

Hardware. Organização Funcional de um. Computador. Arquitetura de Multiprocessadores. UCP Unidade Central de Processamento AMD. Sistema Central CPU

Aula 18 Condução de Eletricidade nos Sólidos

Aplicação de Processamento Paralelo com GPU a Problemas de Escoamento Monofásico em Meios Porosos. Bruno Pereira dos Santos Dany Sanchez Dominguez

Geralmente, fazemos simplificações e desenvolvemos modelos. A matéria é composta por átomos e moléculas

Informática Básica CONCEITOS DE HARDWARE. Msc. Eliezio Soares

QUÍMICA DE MATERIAIS CRISTALINOS AMORFOS AULA 01: INTRODUÇÃO A QUÍMICA DOS MATERIAIS

Placa mãe seus componentes. Prof. Emiliano S. Monteiro

ORGANIZAÇÃO DE COMPUTADORES

2 Teoria do Funcional da Densidade

clara idéia do trabalho feito, a síntese dos MWNTs e SWNTs será descrita por separado nos diferentes capítulos.

Aplicações em CUDA. Medialab Instituto de Computação Universidade Federal Fluminense NVIDIA CUDA Research Center

Exame de Ingresso. Física Aplicada Física Computacional. Primeiro Semestre de 2010

BARRAMENTOS. Adão de Melo Neto

5 Unidades de Processamento Gráfico GPUs

4 Validação do Algoritmo

O carbono elementar (C) é encontrado em mina como grafite e diamante. O silício elementar (Si) é recuperado partir da sílica (SiO 2 ) pela redução com

ARRANJOS ATÔMICOS. Química Aplicada. Profº Vitor de Almeida Silva

Propriedades e classificação dos sólidos Semicondutores Dopados Dispositivos semicondutores Exercícios

Figura 1 Várias formas de ondas repetitivas: (a) onda cosseno, (b) onda seno, (c) onda triangular (d) onda quadrada

Aula 19 Condução de Eletricidade nos Sólidos

Arquitetura de Microprocessadores

Organização de Computadores Sistema de Interconexão. Professor: Francisco Ary

Paralelização do Detector de Bordas Canny para a Biblioteca ITK usando CUDA

FÍSICA. Capacitância

HARDWARE COMPONENTES BÁSICOS E FUNCIONAMENTO. Wagner de Oliveira

Paradigmas de Processamento Paralelo na Resolução do Fractal de Mandelbrot

Sob medida para seu sistema de segurança!

Solver: MSI COMPILADOR: INTEL VISUAL FORTRAN 11.1 PARÂMETROS UTILIZADOS E MANTIDOS CONSTANTES EM TODAS AS SIMULAÇÕES:

Sparse Matrix-Vector Multiplication on GPU: When Is Rows Reordering Worthwhile?

Os testes foram efetuados em um processador Intel i7 de 2.8 GHz com 12Gb de memória RAM utilizando uma Nvidia GeForce GTX 480.

CÁLCULO DA ESTRUTURA ELETRÔNICA DO ÓXIDO DE GRAFENO

Aula 18 Condução de Eletricidade nos Sólidos

DESENVOLVIMENTO DA EQUAÇÃO PREDITIVA GERAL (EPG)

Hardware. Componentes Básicos e Funcionamento

Todo processador é constituído de circuitos capazes de realizar algumas operações primitivas:

CURSO TÉCNICO EM MANUTENÇÃO E SUPORTE EM INFORMÁTICA - 2º P Manutenção e Suporte de Hardware I

5 Configurações 3D (5.1) onde (5.2) (5.3)

Eletromagnetismo I. Prof. Daniel Orquiza. Eletromagnetismo I. Prof. Daniel Orquiza de Carvalho

Introdução à Modelagem Molecular

Atualmente, existem quatro formas alotrópicas do carbono: o grafite, que é

Hardware Conceitos Básicos. Introdução*à*Informática 14

Disciplina: FGE5748 Simulação Computacional de Líquidos Moleculares 1

Processamento de áudio em tempo real utilizando dispositivos não convencionais:

Computação Paralela (CUDA)

Corrente elétrica. GRANDE revolução tecnológica. Definição de corrente Controle do movimento de cargas

Ciências dos materiais- 232

CARACTERIZAÇÃO DE DEFEITOS MECÂNICOS EM SEMICONDUTORES COMPOSTOS DO TIPO III-V PRODUZIDOS POR NANOINDENTAÇÃO

Aula -12. Condução elétrica em sólidos

Hardware e Manutenção de Micros

ARQUITETURA DE COMPUTADORES

6 Autorrecuperação Adicional

Halliday Fundamentos de Física Volume 3

Arquitetura de Computadores Unidade 2 Organização Funcional dos Sistemas de Computação tópico Barramentos

Componentes de Hardware. Alberto Felipe FriderichsBarros

INTRODUÇÃO À FÍSICA DO ESTADO SÓLIDO

Barramentos e interfaces de comunicação Arquitetura e Organização de Computadores Curso de Análise e Desenvolvimento de Sistemas

Organização e Arquitetura de Computadores I

Ementário das disciplinas do CST em Automação Industrial Currículo 4 aprovado pelo CDI em 19/12/16

26 a 29 de novembro de 2013 Campus de Palmas

BARRAMENTOS. Adão de Melo Neto

PROPRIEDADES E FUNCIONALIZAÇÃO

Eletromagnetismo Aplicado

2 Nanotubos de Carbono

2 Fundamentos para a avaliação de integridade de dutos com perdas de espessura e reparados com materiais compósitos

Medição. Os conceitos fundamentais da física são as grandezas que usamos para expressar as suas leis. Ex.: massa, comprimento, força, velocidade...

MECÂNICA - MAC Prof a Michèle Farage. 14 de março de Departamento de Mecânica Aplicada e Computacional

Prof. Benito Piropo Da-Rin. Arquitetura, Organização e Hardware de Computadores - Prof. B. Piropo

Computadores e Programação (DCC/UFRJ)

Microprocessadores II - ELE 1084

Equação de Poisson. Paulo Matias. f (x, y) =

SEMICONDUTORES. Condução Eletrônica

Microprocessadores II - ELE 1084

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

MONTAGEM E MANUTENÇÃO DE COMPUTADORES

Capacitores. - 3) A experiência mostra que a carga acumulada é diretamente proporcional a diferença de potencial aplicada nas placas, ou seja

Montagem e Manutenção Processadores

Sistemas de Computação. Seção Notas. A Memória Principal. Notas. Sexta Aula. Haroldo Gambini Santos. 26 de abril de Notas

vértices dessas células. Exemplos de malhas estruturadas e não-estruturadas são apresentados na Figura 2.

Organização de Computadores Processadores. Professor: Francisco Ary

4 Cálculo de Equivalentes Dinâmicos

ORGANIZAÇÃO DE COMPUTADORES MÓDULO 9

5 Análise dos Resultados

Aula 19 Condução de Eletricidade nos Sólidos

Transcrição:

5 Estudo de Casos Neste capítulo, serão descritos os sistemas físicos e as suas propriedades calculadas com o objetivo comparar o desempenho computacional de uma GPU com o desempenho obtido com uma CPU. Na realização deste estudo foi utilizada uma GPU Tesla C1060, a qual possui 240 elementos de processamento (1.3 GHz) e 4 GB de memória RAM com largura de banda de acesso à memória de 102 GB/segundo através de um barramento de 512 bits (NVIDIA, 2010). O computador utilizado possuía quatro destas GPUs e um processador AMD Phenom II (4 núcleos), trabalhando na freqüência de 3 GHz, com 16 GB de memória RAM. Todas as comparações foram realizadas entre uma GPU e um núcleo da CPU. A largura de banda do barramento PCI Express (Peripheral Component Interconnect) pode ser considerada baixa. Pois enquanto a largura de banda das transferências internas, entre memória GDDR3 e elementos de processamento, de uma Tesla C1060 é de 102 GB/segundo, a transferência pela PCI Express fica em torno de 2 GB/segundo. 5.1. Caso 1 Cálculo da Energia e Estrutura de Bandas de Nanotubos Os nanotubos de carbono são estruturas cristalinas (cilíndricas) formadas por átomos de carbono (estruturas alotrópicas de carbono). Possuem alta resistência a tensão mecânica, podendo ser usados como aditivos em compostos para melhorar suas características. Dependendo do diâmetro ou da quiralidade do tubo, os nanotubos de carbono são condutores ou semi-condutores, podendo ter aplicações em circuitos micro e nano-eletrônicos.

Estudos de Casos 74 5.1.1. Estrutura do Nanotubo O vetor quiral define a estrutura atômica dos nanotubos e são usadas denominações especiais para cada caso: os nanotubos (n,n) são denominados armchair, enquanto os nanotubos (n,0) são denominados zigzag. Os nanotubos (n,m), com n m e m 0, são denominados genericamente quirais, em oposição aos nanotubos armchair e zigzag, que são aquirais. A ilustração da Figura 39 (a) mostra o cruzamento das bandas de valência e condução no nível de Fermi, sendo este comportamento característico dos nanotubos metálicos ou nanotubos armchair (n,n). A Figura 39 (b) ilustra a estrutura de banda de um nanotubo (8,0) semicondutor. Os nanotubos (n,m) com n - m 3i, onde i é um número inteiro, apresentam um comportamento semicondutor. Já os nanotubos (n,m) com n - m = 3i são classificados como semicondutores com gap quase nulo. Para este caso, o nanotubo (12,0) é ilustrado na Figura 39 (c). Figura 39 Estrutura de bandas de nanotubos (a) armchair (5, 5), (b) zigzag (8, 0) e (c) zigzag (12, 0). O nível de Fermi está deslocado para o zero, indicado pela linha tracejada (Silva, 2008). Uma ilustração da estrutura geométrica da célula unitária do nanotubo (4,2) com 56 átomos de carbono, utilizado para os cálculos de comparação de desempenho entre CPU e GPU realizados neste trabalho, é apresentada na Figura

Estudos de Casos 75 lateral Uma vez que 4-2 3i,, então um 40 para a vista frontal e a lateral. comportamento semicondutor é esperado. Figura 40 Nanotubo (4,2). (4,2) a) Vista Frontal, b) Vista Lateral. 5.1.2. Resultados e Testes de Desempenho As propriedades físicas, energia e estrutura de bandas, do nanotubo (4,2) PUC-Rio - Certificação Digital Nº 0812691/CC foram calculadas por primeiros princípios fazendo-se fazendo se o uso da DFT, com o emprego do programa SIESTA. A aproximação para o termo de troca e correlação utilizada foi a LDA, com a parametrização desenvolvida por Ceperley & Alder (1980). Os cálculos de energia para o nanotubo (4,2) foram realizados duas vezes para cada teste. Uma vez com a versão seqüencial original do SIESTA na CPU e em seguida com a versão que emprega funções alteradas para execução em GPU. Isto foi feitoo para verificar a acurácia dos resultados produzidos com emprego de funções CUDA e para comparação de desempenho. Conforme o apresentado nas Tabela 10, Tabela 11 e Tabela 12, 12 é possível verificar,, que para este caso, o erro da Energia Total encontra-se se na sexta casa decimal. A resolução da Equação de Poisson na GPU é utilizada para calcular o potencial de Hartree. A energia de Hartree e a contribuição para as forças atômicas de deslocamento, devidas ao potencial de Hartree, envolvem somatórios e encontram-se se combinadas na mesma porção do código para resolução da Equação de Poisson,, sendo também calculadas na GPU. A Tabela 10 mostra os resultados obtidos com a utilização da primeira versão do kernel da Equação de Poisson, a qual apresentava um nível de ocupação do multiprocessador de 75 % e foi descrito no Capítulo 4.

Estudos de Casos 76 Tabela 10 Resultados de Aceleração com a primeira versão do kernel da Equação de Poisson, para o nanotubo (4,2). Energia Total -8592.057279 ev -8592.057281 ev Tempo da Equação de Poisson 988.0372 s 34.7373 s 28.4431 X Um segundo kernel foi desenvolvido para resolução da Equação de Poisson na GPU. Conforme o descrito no Capítulo 4, este kernel possui uma maior intensidade aritmética e um menor nível de ocupação do multiprocessador, 50 %. Os resultados obtidos para este caso, Tabela 11, são ligeiramente superiores aos do primeiro kernel. Tabela 11 Resultados de Aceleração com a segunda versão do kernel da Equação de Poisson, para o nanotubo (4,2). Energia Total -8592.057279 ev -8592.057282 ev Tempo da Equação de Poisson 988.0372 s 33.796 s 29.2353 X Ao portar novas funções de cálculo do dipolo elétrico e de reordenação de dados para execução em GPU, foi reduzida a necessidade de transferência de memória através do barramento PCI Express. A matriz de densidade, necessária para a resolução da Equação de Poisson, já se encontrava na memória da GPU devido à execução das outras funções. Isso contribui para aumentar a aceleração da Equação de Poisson, conforme o observado na Tabela 12. O Cálculo do Dipolo Elétrico é uma pequena porção do código, quando comparada a Equação de Poisson, envolvendo apenas três somatórios. Não há a necessidade de operações mais dispendiosas computacionalmente, tais como a Transformada de Fourier, e não são realizadas transferências de memória. Esta função é empregada sobre a matriz de densidade, a qual é transferida para a GPU durante a Reordenação de Dados. Isso resultou num elevado valor de aceleração, de duas ordens de grandeza, Tabela 12. A Reordenação de Dados é responsável pelas transferências de memória relacionadas com a matriz de densidade. Apesar de a transferência ser realizada empregando transferência assíncrona e execução concorrentes, a baixa intensidade aritmética desta função resulta num valor menor de aceleração de 2.9 quando comparado às demais funções, Tabela 12. Esta função foi portada para GPU por atuar sobre os mesmos conjuntos de dados que a Equação de Poisson. Portar todas as funções relacionadas com a matriz de densidades para execução em GPU

Estudos de Casos 77 poderá eliminar a necessidade de sua transferência através do barramento PCI Express. Seria necessário transferir somente os parâmetros de inicialização e o resultado das integrais. Tabela 12 Resultados de Aceleração Reduzindo-se a Transferência de Dados através do Barramento PCI Express, para o nanotubo (4,2). Energia Total -8592.057279 ev -8592.057282 ev Tempo de Cálculo do Dipolo Elétrico 51.6835 s 0.2093 s 246.9350 X Tempo de Reordenação de Dados 105.5779 s 39.0563 s 2.7032 X Tempo da Equação de Poisson 988.0372 s 26.6871 s 37.0230 X O tempo total de execução do SIESTA, para o nanotubo (4,2), com a Equação de Poisson, o Cálculo do Dipolo Elétrico e a Reordenação de Dados em GPU, foi de 353.2323 segundos. A versão seqüencial original do SIESTA consumiu 1390.1599 segundos. Assim, a aceleração global do código levando em consideração as chamadas de função C a partir do Fortran, para este caso, foi de 3.9355. A estrutura de bandas do nanotubo (4,2), obtida nos cálculos realizados com o SIESTA, é apresentada na Figura 41. Pode se verificar que está coerente com o fato do nanotubo (4,2) ser um semicondutor (4-2 3i,), pois não ocorre o cruzamento das bandas de valência e condução no nível de Fermi, de forma semelhante ao discutido anteriormente para a Figura 39 (b).

Estudos de Casos 78 Figura 41 Estrutura de bandas para o nanotubo (4,2). O nível de Fermi está deslocado para o zero, indicado pela linha tracejada. 5.2. Caso 2 Otimização da Geometria Estrutural de Fulereno O fulereno é uma estrutura formada por átomos de carbono organizados nos vértices de um icosaedro truncado que tem a forma de uma bola de futebol (com pentágonos e hexágonos). 5.2.1. Estrutura do Fulereno A estrutura do fulereno é esférica, formada por hexágonos interligados por pentágonos, sendo estes últimos responsáveis pela sua curvatura e, conseqüentemente, por sua forma tridimensional (Kroto, Allaf e Balm, 1991). O representante mais conhecido da família dos fulerenos é o C60 (com 60 carbonos), com um diâmetro de aproximadamente 1 nm. Este fulereno é apresentado na Figura 42 e é nosso segundo estudo de caso.

Estudos de Casos 79 Figura 42 Fulereno C60. 5.2.2. Resultados e Testes de Desempenho Uma estrutura muito próxima da estrutura final foi utilizada como ponto de partida para otimização da geometria estrutural do fulereno C60. A energia total da estrutura é calculada e pequenas variações das coordenadas atômicas são realizadas, de acordo com os resultados obtidos para as forças de deslocamento atômicas. Foi utilizada a DFT do programa SIESTA, com a aproximação GGA para o termo de troca e correlação da energia. Os cálculos são repetidos duas vezes, em CPU e em CPU-GPU, para comparação de desempenho. Com relação à acurácia, para este caso, o Erro da Energia Total encontra-se na quarta casa decimal, conforme pode ser observado nas Tabela 13 e Tabela 14. A otimização da geometria estrutural requer a realização de mais de um cálculo de energia. Isto justifica o aumento do erro, neste caso, pois o erro do cálculo de energia é acumulado entre os passos do processo iterativo de otimização da geometria. Juntamente com o código para o cálculo do potencial de Hartree pela resolução da Equação de Poisson na GPU, encontra-se, de forma combinada, o código para o cálculo da energia de Hartree e a contribuição para as forças de deslocamento atômicas, devidas ao potencial de Hartree. A aceleração obtida pela resolução da Equação de Poisson na GPU é apresentada na Tabela 13. Neste caso foi utilizada somente a segunda versão do kernel da Equação de Poisson, conforme o descrito no Capítulo 4.

Estudos de Casos 80 Tabela 13 Resultados de Aceleração com a segunda versão do kernel da Equação de Poisson, para o fulereno C60. Energia Total -7853.604264 ev -7853.604698 ev Tempo da Equação de Poisson 187.1953 s 10.7989 s 17.3346 X Portar um maior volume de operações, realizadas sobre a mesma matriz de densidades, para a GPU contribui para melhorar o desempenho. Comparando a Tabela 13 com a Tabela 14, podemos observar o aumento de desempenho da Equação de Poisson na GPU, pois a matriz de densidade havia sido usada por outras funções GPU, não necessitando a transferência através do barramento PCI Express. Tabela 14 Resultados de Aceleração Reduzindo-se a Transferência de Dados através do Barramento PCI Express, para o fulereno C60. Energia Total -7853.604264 ev -7853.604698 ev Tempo de Cálculo do Dipolo Elétrico 14.4850 s 0.0774 s 187.1447 X Tempo da Equação de Poisson 187.1953 s 8.9205 s 20.9848 X