Friday, 24 February 2017

Log Transformation Des Variables Dans Stata Forex

Stata: Analyse de données et logiciel statistique Allen McDowell, StataCorp Nicholas J. Cox, Université de Durham, Royaume-Uni Une solution traditionnelle à ce problème consiste à effectuer une transformation logit sur les données. Supposons que votre variable dépendante est appelée y et que vos variables indépendantes sont appelées X. Ensuite, on suppose que le modèle qui décrit y est Si l'on effectue alors la transformation logit, le résultat est: Nous avons maintenant cartographié la variable d'origine, délimitée par 0 et 1, à la ligne réelle. On peut maintenant adapter ce modèle en utilisant OLS ou WLS, par exemple en utilisant la régression. Bien entendu, on ne peut effectuer la transformation sur des observations où la variable dépendante est nulle ou l'une sera une valeur manquante, et cette observation sera ensuite supprimée de l'échantillon d'estimation. Une meilleure alternative est d'estimer en utilisant glm avec la famille (binomial). Lien (logit). Et robuste c'est la méthode proposée par Papke et Wooldridge (1996). Au moment où cet article a été publié, Statarsquos glm commande ne pouvait pas adapter ces modèles, et ce fait est noté dans l'article. Glm a depuis été amélioré spécifiquement pour traiter les données de réponse fractionnaire. Dans les deux cas, il peut bien y avoir une question d'interprétation de fond. Concentrons-nous sur l'interprétation des zéros: le même genre de problème peut se poser pour les uns. Supposons que la variable y soit la proportion de jours que les travailleurs consacrent à la maladie. Il y a deux possibilités extrêmes. La première extrême est que tous les zéros observés sont en fait des zéros d'échantillonnage: chaque travailleur a une probabilité non nulle d'être malade, et c'est simplement que certains travailleurs n'étaient pas en fait malades pendant notre période d'échantillonnage. Ici, nous voudrions souvent inclure les zéros observés dans notre analyse et le chemin glm est attrayant. La deuxième extrême est que certains ou peut-être tous les zéros observés doivent être considérés comme des zéros structurels: ces travailleurs ne se signaleront jamais malades, à cause d'une santé robuste et d'un dévouement exemplaire. Ce sont des cas extrêmes, et des cas intermédiaires sont également courants. En pratique, il est souvent utile de considérer la distribution de fréquences: un pic marqué à zéro ou bien on peut douter d'un seul modèle adapté à toutes les données. Un deuxième exemple pourrait être les données sur les liens commerciaux entre les pays. Supposons que la variable y soit la proportion des importations en provenance d'un certain pays. Ici, un zéro peut être structurel si deux pays ne négocient jamais, par exemple sur le plan politique ou culturel. Un modèle qui s'insère à la fois sur les zéros et les nonzeros pourrait ne pas être conseillé, de sorte qu'un modèle différent de modèle devrait être considéré. Pour une excellente discussion plus large, voir Baum (2008). Références Baum, C. F. 2008. Modélisation des proportions. Stata Journal 8: 299ndash303. Papke, L. E. et J. Wooldridge. 1996. Méthodes économétriques pour les variables de réponse fractionnaire avec une application à 401 (k) plan taux de participation. Journal of Applied Econometrics 11: 619ndash632.Pour des questions rapides email dataprinceton. edu. Pas d'appts. Nécessaire pendant les heures de marche. Remarque: le laboratoire DSS est ouvert tant que Firestone est ouvert, aucun rendez-vous nécessaire pour utiliser les ordinateurs de laboratoire pour votre propre analyse. Transformations log Si la distribution d'une variable a un biais positif, prendre un logarithme naturel de la variable aide parfois à ajuster la variable dans un modèle. Les transformations logarithmiques rendent la distribution asymétrique positivement plus normale. De plus, lorsqu'un changement dans la variable dépendante est lié à un changement de pourcentage dans une variable indépendante, ou vice versa, la relation est mieux modélisée en prenant le logarithme naturel de l'une ou des deux variables. Par exemple, j'estime le salaire des personnes en fonction de l'éducation, de l'expérience et de la région de résidence à l'aide des données d'échantillons de Statas nlsw88, un extrait de 1988 National Logitudinal Study of Young Women. Il semble correct, mais quand je regarde la répartition de la permanence, il semble un peu biaisé. Je calcule donc un journal naturel de la permanence. Il semble avoir dépassé un peu, mais semble un peu normal. J'essaie une régression avec la tenure consignée. Le R-carré a obtenu un peu plus élevé, donc en prenant le journal naturel semble avoir aidé à l'adapter le modèle mieux. Lorsque la variable indépendante mais pas la variable dépendante est enregistrée, un changement de 1% dans la variable indépendante est associé à 1100 fois la variation de coefficient dans la variable dépendante. Salaire prévu -1.6390.681GRADE0.774LNTENURE-1.134SOUTH Ainsi, une augmentation de un pour cent de la permanence est associée à une augmentation du salaire de 0,01x0,774 ou environ 0,0077. Maintenant, j'examine le salaire, et je trouve qu'il est très faussé. Je prends donc un journal naturel du salaire et je regarde la répartition du salaire enregistré. La distribution semble beaucoup plus normale. Maintenant, je cours la même régression avec le salaire enregistré comme variable dépendante. Lorsque la variable dépendante mais pas une variable indépendante est enregistrée, une variation d'une unité dans la variable indépendante est associée à un changement de 100 fois le pourcentage de variation dans la variable dépendante. Dans ces données, la durée d'occupation est mesurée en années: ainsi, une augmentation d'un an de la permanence augmente le salaire de 100x0,026 ou environ 2,6. Si l'on enregistre à la fois les variables dépendantes et indépendantes, on considère alors l'élasticité: la variation en pourcentage de X entraîne une variation en pourcentage de Y. prédit lnwage 0.659 0.084GRADE0.136LNTENURE-0.151SOUTH On estime qu'une augmentation de 1% 0,136 augmentation du salaire. Copie 2007 Les Truestees de l'Université de Princeton. Tous les droits sont réservés. Dataprinceton. edu Cette page a été mise à jour le 28 août 2008


No comments:

Post a Comment