Esta página ou seção foi marcada para revisão devido a incoerências ou dados de confiabilidade duvidosa. Se tem algum conhecimento sobre o tema, por favor, verifique e melhore a coerência e o rigor deste artigo. Considere colocar uma explicação mais detalhada na discussão.(Março de 2018)
CUDA (anteriormente conhecido como Compute Unified Device Architecture ou Arquitetura de Dispositivo de Computação Unificada) é uma API destinada a computação paralela, GPGPU, e computação heterogênea, criada pela Nvidia.[1] destinada a placas gráficas que suportem a API (normalmente placas gráficas com chipset da Nvidia). A plataforma CUDA dá acesso ao conjunto de instruções virtuais da GPU e a elementos de computação paralela, para a execução de núcleos de computação.[2]
A API inclui um conjunto de instruções CUDA ISA's (Instruction Set Architecture) e o mecanismo de computação paralela na GPU. Ele expõe os diferentes tipos de memória da placa e obriga que o desenvolvedor configure os acessos da memória global, a cache, a quantidade e a disposição das threads. O desenvolvedor também será responsável por escalonar as atividades entre a GPU e o CPU. A plataforma CUDA é desenhada para trabalhar com linguagem de programação como C, C++ e Fortran. Isto torna acessível a especialistas em programação paralela o uso dos recursos do GPU. APIs anteriores como DirectX e OpenGL, permitem também o uso de GPGPU. Contudo a programação deste tipo de instruções nestas placas gráficas é mais exigente, uma vez que todo o código tem de ser convertido de e para instruções de cálculo vectorial, passíveis de serem calculadas pela placa gráfica. A API suporta, frameworks e APIs opensource, desenvolvidas pelo Khronos Group, como é o caso de OpenACC e OpenCL.[2] Quando foi introduzida pela primeira vez pela Nvidia, o nome CUDA era um acrónimo de “Compute Unified Device Architecure”,[3] apesar de a NVIDA ter abandonado o uso deste acrónimo.
O propósito inicial da API destinava-se a propriedades físicas em jogos, identificar placas ocultas em artérias, analisar fluxo do tráfego aéreo e visualização de moléculas. No entanto, não tardaria a que a API fosse usada para outros fins, como por exemplo, Inteligência artificial (de notar que o framework de Python da Google TensorFlow, tira proveito da API), assim como renderização gráfica (a partir de programas como o Octane Render), actividades de foro criptográfico (existem toda uma série de ferramentas, desde ferramentas para exploração de falhas de segurança, a aplicações para blockchain baseadas em APIs como CUDA; OpenCL, e SYCL, que tiram proveito da API). Actualmente, a plataforma CUDA, é das plataformas, de GPGPU mais robustas, e maduras que existem, o que pode ser muitas vezes usado como argumento para validar o preço mais alto de placas gráficas da Nvidia, quando comparado com as concorrentes directas da AMD. Em versões antigas do CUDA Toolkit, era possível desenvolver mesmo sem ter o hardware necessário, usando um emulador, mas a partir da versão 3.0, essa funcionalidade não é mais suportada.[4]
Potencial
A placa gráfica (GPU), como unidade de processamento lógico, é capaz de calcular instrucções paralelas, com uma grande velocidade de largura de banda, como consequência das suas capacidades para gráficos em tempo real de alta resolução gráficos 3D, que são normalmente tarefas bastante exigentes. Por volta de 2012, os GPUs tinham evoluído para dispositivos de processamento paralelo altamente capazes, permitindo uma manipulação muito eficiente de blocos de informação de grande dimensão. O design é mais eficiente em instruções de cálculo paralelo para fins comuns, como por exemplo:
No final dos anos 90, surgiu a primeira GPU da NVIDIA, quando o hardware começou a tornar-se cada vez mais programável. A partir de então pesquisadores começaram a estudar sobre o assunto, culminando na GPU de Propósito Geral (GPGPU). Entretanto a GPGPU naquela época era muito mais complexa, e poucas pessoas conseguiam trabalhar com ela, até que uma equipe de pesquisadores da Universidade de Stanford reuniu-se para melhorar a GPU.
Em 2003, um grupo de pesquisadores liderado por Ian Buck desenvolveu o Brook, o primeiro modelo de programação a adotar a linguagem C em uma plataforma de computação paralela, revelam assim uma GPU como um processador de propósito geral em uma linguagem de alto nível, além de os programas em Brook serem sete vezes mais rápidos.
A NVIDIA então sabia que um hardware extremamente rápido assim deveria conter ferramentas intuitivas, por isso convidou Ian Buck para trabalhar na empresa e começar a desenvolver uma solução para executar o C na GPU de forma melhor. Assim, a NVIDIA apresentou em 2006 o CUDA, a primeira solução para computação de propósito geral em GPUs.
Benefícios e Limitações do CUDA
Benefícios
Leitura paralela - o código pode ler de endereços arbitrários na memória;
Memória compartilhada - CUDA expõe uma região de memória compartilhada rápida (16KB em tamanho) que podem ser compartilhados entre threads. Isso pode ser usado como um cache de usuário, permitindo maior largura de banda do que é possível utilizando textura lookups;
As cópias realizadas entre uma memória e outra podem gerar algum problema na performance das aplicações;
Ao contrário do OpenCL, o CUDA está disponível apenas para placas de vídeo fabricadas pela própria NVIDIA. Caso seja usado em outro tipo de placa, o CUDA funcionará corretamente, entretanto a performance será bem limitada;
A próxima geração de arquiteturas CUDA (codename: "Fermi") que vira por padrão na Geforce serie 400 ( GTX 480 estará disponível a partir de 2010) a GPU é desenvolvida para suportar nativamente mais linguagens de programação como C++. É esperado que tenha um desempenho 8 vezes maior na performance de pontos flutuantes se comparada com a geração atual Nvidia Tesla. E terá a introdução de novas características como:
Mais de 512 núcleos CUDA e 3 bilhoes de transistores
NVIDIA Parallel DataCache technology
NVIDIA GigaThread engine
Suporte a Memoria ECC
Suporte nativo ao Visual Studio
CUDA.NET
Cuda.NET é a implementação da tecnologia CUDA para C#. Ela permite que os códigos criados em C# sejam executados pelas placas Nvidia que possuem a tecnologia CUDA, permitindo ganho em relação ao processamento paralelo utilizado pela GPU ao invés do processador.