Avec 400 000 observations dans le fichier principal et 300 dans le fichier de référence, cela prend environ 1,5 minute. Je ne peux pas tester cela avec le double des observations dans le fichier principal, car le manque de RAM prend mon ordinateur à un crawl. La stratégie implique de créer autant de variables que nécessaire pour contenir les latitudes de référence et les longitudes (2714 1084 dans le cas des OP, Stata IC et up peuvent gérer cela. Cela nécessite quelques remodelage et ajout. Ensuite, nous vérifions les observations du grand fichier de données qui répondent aux conditions. La fonction inrange () implique que les minimums et maximums doivent être préalablement ajustés pour satisfaire les inégalités strictes des OPs (les tests de fonction lt,). Probablement une certaine expansion en utilisant expand. L'utilisation de corrélatifs et par (donc les données est en forme longue) pourrait accélérer les choses. Ce n'est pas tout à fait clair pour moi en ce moment. Im sûr il ya de meilleures façons en mode Stata simple. Mata peut être encore mieux. (Joinby a également été testé, mais une fois de plus RAM était un problème.) Faire des calculs en morceaux plutôt que pour la base de données complète, améliore considérablement le problème de RAM. En utilisant un fichier principal avec 1,2 million d'observations et un fichier de référence avec 300 observations, le code suivant fait tout le travail en environ 1,5 minutes: Vous demandez si vos inégalités sont correctes. Ils sont en fait légaux, ce qui signifie que Stata ne se plaindra pas, mais le résultat est probablement inattendu. Le résultat suivant peut paraître surprenant: Comment se passe-t-il si l'expression est vraie (c'est-à-dire 1). Stata évalue d'abord 66.11 lt 100 qui est vrai, puis voit 1 lt 67.93 ce qui est également vrai, bien sûr. L'expression voulue était (et Stata va maintenant faire ce que vous voulez): Vous pouvez également compter sur la fonction inrange (). L'exemple suivant est cohérent avec l'explication précédente: Stata voit 66.11 lt 100 qui est vrai (c'est-à-dire 1) et suit avec 1 lt 0. qui est faux (c'est-à-dire 0). J'essaierais d'éviter de conserver et de restaurer le gros fichier, et ce faire est possible, mais au détriment de la perte de format Stata. En utilisant la même configuration que Roberto et Dimitriy, le Time it sur votre machine. Vous pourriez éviter touse et thisid et ont seulement le fichier unique dans le cycle, mais il serait moins lisible. Vous pouvez alors infilier lat lon using data. csv, effacer plus tard. Si vous avez vraiment besoin des fichiers Stata propres, vous pouvez convertir ce essaim de fichiers CSV avec Time it, aussi. J'ai protégé la sauvegarde car certains des jeux de données simulés étaient vides. Je pense que cela a été plus rapide que 1,5 min sur ma machine, y compris la conversion. NOTICE: Le groupe de consultation IDRE Statistical migrera le site Web au CMS WordPress en février pour faciliter la maintenance et la création de nouveaux contenus. Certaines de nos anciennes pages seront supprimées ou archivées de sorte qu'elles ne seront plus conservées. Nous essaierons de maintenir les redirections afin que les anciennes URL continuent à fonctionner de la meilleure façon possible. Stata Class Notes Gestion des données 1.0 Commandes Stata dans cette unité Afficher le répertoire en cours (répertoire de travail pwdprint) Afficher les fichiers dans le répertoire courant Maintenir les observations si la condition est remplie Conserver les variables Ou des observations Changer les variables ou les observations Ajouter un fichier de données au fichier courant Fusionner un fichier de données avec le fichier courant 2.0 Démonstration et explication Exemple 2.1 - Données de sous-position Supposons que nous sommes des étudiants de premier cycle travaillant sur notre thèse d'honneur et nous voulons analyser un sous - fichier. En fait, nous étudions les lecteurs de quotgood et nous voulons simplement nous concentrer sur les étudiants qui avaient un score de lecture de 60 et plus. Ce qui suit montre comment nous pouvons prendre le fichier de données hs1 et faire un dossier séparé appelé honours et stocker une copie de nos données qui a juste les élèves avec des scores de lecture de 60 ou plus. Exemple 2.1, suite - Garder des variables Supposons en outre que notre fichier de données avait beaucoup, beaucoup de variables, disons 2000 variables, mais nous ne nous soucions que d'une poignée d'entre eux, id. femelle . lire et écrire . Nous pouvons sous-ensemble notre fichier de données pour garder seulement ces variables comme montré ci-dessous. Exemple 2.1, suite - Suppression de variables Au lieu de vouloir conserver une poignée de variables, il est possible que nous voulions nous débarrasser d'une poignée de variables dans notre fichier de données. Ci-dessous nous montrons comment nous pourrions nous débarrasser des variables ses et prog. Exemple 2.2 - Ajout de données Nous passons maintenant à notre thèse de maîtrise. Nous avons un dossier appelé masters et on nous a donné un fichier avec les données pour les mâles (appelé hsmale) et un fichier pour les femelles (appelé hsfemale). Nous devons combiner ces fichiers afin de pouvoir les analyser, comme indiqué ci-dessous. Dans cet exemple, nous ajoutons des cas, parfois appelés quotstackingquot. Exemple 2.3 - Fusion de données Maintenant nous travaillons sur notre thèse et, comme avec nos maîtres, nous avons reçu deux fichiers. Dans ce cas, nous avons un fichier contenant les informations démographiques (appelé hsdemo) et un fichier avec les scores des tests (appelé hstest) et nous souhaitons fusionner ces fichiers. Tout d'abord, nous devons ouvrir, trier et enregistrer chaque fichier de données. Chaque fichier de données doit être trié par la même variable. Ensuite, nous utilisons la commande de fusion pour fusionner les deux ensembles de données. 3.0 Pour plus d'informations Le contenu de ce site Web ne doit pas être interprété comme un endossement d'un site Web particulier, d'un livre ou d'un produit logiciel par l'Université de Californie.
No comments:
Post a Comment