A NASA trabalha com algumas das tecnologias mais avançadas do mundo e faz algumas das descobertas mais significativas da história da humanidade. No entanto, de acordo com um especial relatório conduzido pelo Escritório do Inspetor Geral da NASA e descoberto por O registro, as capacidades de supercomputação da NASA são insuficientes para as suas tarefas, o que leva a atrasos nas missões. Os supercomputadores da NASA ainda dependem principalmente de CPUs, e um de seus principais supercomputadores usa 18.000 CPUs e 48 GPUs.
A NASA possui atualmente cinco ativos centrais de computação de ponta (HEC) localizados nas instalações da NASA Advanced Supercomputing (NAS) em Ames, Califórnia, e no Centro de Simulação Climática da NASA (NCCS) em Goddard, Maryland. A lista inclui Aitken (13.12 PFLOPS, projetado para apoiar o programa Artemis, que visa devolver os humanos à Lua e estabelecer uma presença sustentável lá), Electra (8.32 PFLOPS), Discover (8.1 PFLOPS, usado para modelagem climática e meteorológica), Plêiades (7,09 PFLOPS, usado para simulações climáticas, estudos astrofísicos e modelagem aeroespacial, e Endeavour (154,8 TFLOPS).
Essas máquinas usam quase exclusivamente núcleos de CPU antigos. Por exemplo, todos os supercomputadores NAS usam mais de 18.000 CPUs e apenas 48 GPUs, e o NCSS usa ainda menos GPUs.
“Os funcionários da HEC levantaram múltiplas preocupações em relação a esta observação, afirmando que a incapacidade de modernizar os sistemas da NASA pode ser atribuída a vários factores, tais como preocupações com a cadeia de abastecimento, requisitos de linguagem de computação moderna (codificação) e a escassez de pessoal qualificado necessário para implementar as novas tecnologias. “, diz o relatório. “Em última análise, esta incapacidade de modernizar a sua atual infraestrutura HEC terá um impacto direto na capacidade da Agência de cumprir os seus objetivos de exploração, científicos e de investigação.”
A auditoria conduzida pelo Gabinete do Inspetor Geral da NASA também revelou que as operações HEC da agência não são geridas centralmente, resultando em ineficiências e na falta de uma estratégia coesa para a utilização de recursos de computação no local versus recursos de computação em nuvem. Esta incerteza levou à hesitação na utilização de recursos da nuvem devido a práticas de agendamento desconhecidas ou a custos mais elevados assumidos. Algumas missões recorreram à aquisição das suas infra-estruturas para evitar a espera pelo acesso aos recursos primários de supercomputação, que estão em grande parte sobrecarregados porque não dependem das mais recentes tecnologias de HPC.
Além disso, a auditoria constatou que os controlos de segurança da infraestrutura HEC são frequentemente ignorados ou não implementados, aumentando o risco de ataques cibernéticos.
O relatório sugere que a transição para GPUs e a modernização do código são essenciais para atender às necessidades atuais e futuras da NASA. As GPUs oferecem capacidades computacionais significativamente maiores para cargas de trabalho que envolvem processamento paralelo, que são muito comuns em simulações e modelagens científicas.