Manipulando dados no stata forex


Estou atualmente usando uma amostra de 10 de um conjunto de dados muito grande (10 vars, mais de 300 m de linhas), que equivale a mais de 200 GB de dados quando armazenado no formato. dta para o conjunto de dados completo. A Stata é capaz de lidar com operações como egen, colapso, fusão, etc. em uma quantidade razoável de tempo para a amostra 10 ao usar o Stata-MP em um servidor UNIX com 50G de RAM e múltiplos núcleos. No entanto, agora quero avançar para analisar toda a amostra. Mesmo que eu use uma máquina que tenha RAM suficiente para armazenar o conjunto de dados, simplesmente gerar uma variável leva idades. (Eu acho que talvez as operações em segundo plano estejam fazendo com que o Stata funcione em mem virtual). O problema também é muito favorável à paralelização, ou seja, as linhas no conjunto de dados são independentes um do outro, então eu posso pensar com facilidade sobre o conjunto de dados grande como 100 conjuntos de dados menores. Alguém tem alguma sugestão sobre como processar analisar esses dados ou pode me dar feedback sobre algumas sugestões que atualmente eu uso principalmente StataSASMATLAB, então talvez existam outras abordagens que eu simplesmente não soube. Aqui estão algumas das minhas ideias atuais: Divida o conjunto de dados em conjuntos de dados menores e utilize o processamento paralelo informal em Stata. Eu posso executar minha análise de processamento de limpeza em cada partição e depois mesclar os resultados depois sem ter a loja todas as partes intermediárias. Use o SQL para armazenar os dados e também executar a manipulação de dados, como a agregação sobre determinados valores. Uma preocupação aqui é que algumas tarefas que a Stata pode lidar com bastante facilidade, como a comparação de valores ao longo do tempo, não funcionarão tão bem no SQL. Além disso, eu já estou em execução em problemas de desempenho ao executar algumas consultas em SQL em uma amostra de 30 dos dados. Mas talvez eu não otimizei por indexação correta, etc. Além disso, Shard-Query parece que poderia ajudar com isso, mas ainda não tenho pesquisado demais. R também parece promissor, mas não tenho certeza se resolveria o problema de trabalhar com essa enorme quantidade de dados. Como você conhece a Stata, há uma FAQ bem documentada sobre grandes conjuntos de dados no Stata Dealing com conjuntos de dados grandes. Você pode achar isso útil. Eu iria limpar através de colunas, dividindo-os, executando quaisquer rotinas de limpeza específicas e juntando-se mais tarde. Dependendo dos recursos da sua máquina, você deve poder manter as colunas individuais em vários arquivos temporários usando tempfile. O cuidado de selecionar apenas as variáveis ​​ou colunas mais relevantes para sua análise deve reduzir bastante o tamanho do seu conjunto. Respondeu 22 de novembro 13 às 7:10 Não deveria o link que você menciona apontar para esta página. Ndash radek 22 de novembro às 11:25 absolutamente certo, estúpido, copiar bagunça de macarrão lá ndash D3L 23 de novembro às 12:29 Obrigado D3L. O problema aqui é que estou executando algum código de manipulação de dados que requer interação entre colunas. A divisão das linhas é uma solução possível, mas é bastante complicado para a tarefa que estou executando. Ndash user3018549 26 de novembro 13 em 15: 40Manipulação de dados de comércio para o Excel Estou tentando manipular e analisar os dados de comércio que eu exporto para excel (salvando como relatório, copiando e colando em excel). Por exemplo, eu gostaria de voltar a testar uma EA, mas com uma cesta de pares. Eu não acho que isso é possível no MT4, mas eu gostaria de simular esse teste de volta, exportando os dados para excel. Alguém tem recursos de ferramentas para acelerar esse processo, eu vi algumas coisas on-line, mas não sabia se valiam a pena fazer. Agradeceria qualquer comentário. Obrigado.

Comments