Informations

Où en ligne le texte des articles de journaux des années 1800 est-il transcrit ?


J'essaie de rechercher et de former un corpus à partir d'écrits en anglais pour des profanes moyens avant 1900, publiés au Canada, aux États-Unis ou au Royaume-Uni. Comme proxy pour l'écriture ordinaire, j'ai choisi les journaux.

Beaucoup sont scannés en ligne, mais le texte fatigue généralement les yeux à lire. Existe-t-il des sites Web comme 100 Full Text Saskatchewan News Stories de 1884 à 2000 qui ont transcrit et numérisé le texte?

Je n'ai pas besoin de tous les articles de journaux, je me contenterais des plus importants.


Un bon point de départ serait votre bibliothèque publique ou universitaire locale. Il existe un certain nombre d'éditeurs de collections de journaux historiques qui offrent une recherche textuelle, ce qui implique que les journaux ont été numérisés et OCRed.

L'un d'eux est Newspaper Archive, éventuellement disponible dans votre bibliothèque, qui ne se limite pas aux années 1800, mais couvre les paramètres géographiques et chronologiques que vous avez énumérés.

À titre d'exemple d'excellente source spécifique aux années 1800, le groupe Gale, une société d'apprentissage de Cengage, publie une collection de sources primaires intitulée Journaux américains du XIXe siècle. L'accès se fait uniquement sur abonnement ; cependant, votre bibliothèque publique ou universitaire locale peut avoir un abonnement qu'elle met à la disposition des titulaires de carte de bibliothèque.

Le catalogue de sources primaires de Gale comprend un certain nombre de titres en anglais du XIXe siècle. J'ai choisi celui-ci parce que je le connais bien, pour l'avoir déjà utilisé, et ma bibliothèque publique me permet d'y accéder.

La description de Journaux américains du XIXe siècle lit :

Lorsqu'une nouvelle nation américaine a émergé dans les années 1800, la première ébauche de l'histoire a été écrite par ceux qui l'ont vécue et l'a enregistrée dans les pages des journaux d'un océan à l'autre. Nineteenth Century U.S. Newspapers offre une fenêtre sur les événements, la culture et la vie quotidienne dans l'Amérique du XIXe siècle qui intéresse à la fois les chercheurs professionnels et généraux. Avec 1,8 million de pages disponibles, la collection présente des publications de toutes sortes, des journaux des partis politiques du début du XIXe siècle aux gigantesques quotidiens qui ont façonné la nation à la fin du siècle. Les principaux journaux se tiennent aux côtés de ceux publiés par les Afro-Américains, les Amérindiens, les groupes de défense des droits des femmes, les groupes syndicaux et la Confédération. Les titres ont été sélectionnés par les plus grands spécialistes de la presse américaine du XIXe siècle, et des sommaires ont été inclus pour les titres individuels.

La collection a été OCRed et le texte de la collection est consultable. Les chercheurs peuvent également parcourir par titre et/ou date de publication ou utiliser la recherche avancée ou d'autres outils de recherche. Les lecteurs peuvent afficher une image de document avec le texte de recherche en surbrillance, le texte brut OCR ou les deux côte à côte.

Par exemple, une recherche de "base ball" trouve ce 1859 Héraut de New York article "Cricket versus Base Ball", montré avec son texte brut OCRed dans cette image :

Je vous recommande de commencer votre recherche à la bibliothèque. De nombreuses bibliothèques ont un service de référence virtuelle, une conversation AKA avec un bibliothécaire, ou vous pouvez leur envoyer un courrier électronique avec ce que vous essayez de faire.

Remarque : il peut y avoir des droits d'auteur ou d'autres restrictions légales impliquées dans la tentative de formation d'un corpus par téléchargement de masse de texte. L'échantillonnage peut être une alternative viable.


Voir la vidéo: MISSÄ OOT KYMMENEN VUODEN PÄÄSTÄ? SÄPINÄÄ (Novembre 2021).