Ein neues Verfahren für namensbasierte Zufallsstichproben von Migranten

Article OPEN
Schnell, Rainer ; Gramlich, Tobias ; Bachteler, Tobias ; Reiher, Jörg ; Trappmann, Mark ; Smid, Menno ; Becher, Inna (2013)
  • Publisher: DEU
  • Related identifiers: doi: 10.12758/mda.2013.001
  • Subject: development of methods | Zufallsauswahl | HM | Automatisierung | empirical | Klassifikation | Bayes-Klassifikation; n-Gramm; seltene Populationen; Onomastik | Methods and Techniques of Data Collection and Data Analysis, Statistical Methods, Computer Methods | Methodenentwicklung | automation | migrant | random sample | Sozialwissenschaften, Soziologie | empirisch-quantitativ | procedure | classification | sample | quantitative empirical | Verfahren | Grundlagenforschung | Bayes-Statistik | Erhebungstechniken und Analysetechniken der Sozialwissenschaften | Bayesian statistics | Social sciences, sociology, anthropology | basic research | empirisch | Stichprobe

"Zu den besten Verfahren für die Konstruktion von Migrantenstichproben gehören namensbasierte Stichproben. Hierfür werden bislang entweder ad-hoc-Listen oder namenskundliche Lexika für die Klassifikation von Namen verwendet. In diesem Beitrag wird ein neues Verfahren vorgeschlagen, das auf der automatischen Klassifikation eines Namens anhand der n-Gramme des Namens und der Anwendung des Bayes-Theorems basiert. Das neue Verfahren ist fehlertolerant gegenüber alternativen Schreibweisen und erlaubt auch die Klassifikation von Namen, die sich nicht in den Lexika finden. Das Verfahren wurde anhand der Namen der ca. 1.600 Ausländer im PASS-Panel und einer CATI-Studie in Hessen untersucht." (Autorenreferat) "The set of best methods for sampling migrant populations includes name-based sampling. So far this is done using either ad-hoc lists or onomastic dictionaries for the classification of names. This paper proposes a new name-based procedure, which uses a Bayes-classifier for the n-grams of the name. The new procedure is fault-tolerant of alternate spellings, and also allows the classification of names that are not found in dictionaries. It was tested using the names of about 1.600 foreigners in the PASS panel. Finally, a CATI survey based on the new method in Hesse is described." (author's abstract)
  • References (46)
    46 references, page 1 of 5

    16 Hierzu gehören in diesem Datensatz Estland, Lettland, Litauen, Sowjetunion, Russische Föderation, Ukraine, Weißrussland, Armenien, Aserbaidschan, Kasachstan, Kirgisistan, Tadschikistan und Turkmenistan.

    17 Hierzu gehören Bosnien und Herzegowina, Jugoslawien, Kroatien, Makedonien, Albanien und Slowenien. Die ehemalige Bundesrepublik Jugoslawien war zum Zeitpunkt der Erstellung der Namensliste noch nicht in Serbien und Montenegro zerfallen.

    18 Hierzu gehören Polen, Bulgarien, Ungarn, Rumänien, ehemalige Tschechoslowakei, Slowakei und die Tschechische Republik.

    19 Diese Beschränkung resultiert allein aus der Größe der Subgruppen im Validierungsdatensatz. In anderen Anwendungen kann eine andere - oder auch gar keine - Zusammenfassung der in den Trainingsdaten erfassten Länder zu Gruppen gewählt werden.

    20 Da das Verfahren unter anderem für kommerzielle Zwecke (z. B. durch Adresshändler) verwendet werden kann, hat sich die Arbeitsgruppe entschlossen, weder die Trainingsdaten noch die Klassifikationsergebnisse öffentlich zur Verfügung zu stellen.

    Bertelsmann Stiftung (Hg.), 2009: Zuwanderer in Deutschland. Ergebnisse einer repräsentativen Befragung von Menschen mit Migrationshintergrund. Gütersloh: Bertelsmann Stiftung.

    Blane, H. D., 1977: Acculturation and Drinking in an Italian American Community. Journal of Studies on Alcohol 38 (7): 1324-1346.

    Brettfeld, K. und P. Wetzels, 2007: Muslime in Deutschland. Integration, Integrationsbarrieren, Religion sowie Einstellungen zu Demokratie, Rechtsstaat und politischreligiös motivierter Gewalt. Berlin: Bundesministerium des Innern.

    Burkhauser, R. V., M. Kreyenfeld und G. G. Wagner, 1997: The Immigrant Sample of the German Socio Economic Panel. Aging Studies Working Paper 7, Maxwell Center for Demography and Economics of Aging, Syracus, NY.

    Cavnar, W. B. und J. M. Trenkle, 1994: N-Gram-Based Text Categorization. S. 161-175 in: Proceedings of SDAIR-94: 3rd Annual Symposium on Document Analysis and Information Retrieval.

  • Metrics
    No metrics available
Share - Bookmark