Question Comment extraire les identifiants d'email d'un document en utilisant Word ou Writer


J'ai un document (.doc) avec des centaines d'identifiants de courrier électronique placés au hasard dans le texte. Comment isoler les identifiants de messagerie pour pouvoir les exporter vers mes contacts Gmail?

Je voudrais une solution à cela en utilisant des expressions régulières sur Writer ou en utilisant la fonctionnalité de recherche sur Word ou par toute autre méthode.


2
2017-09-23 07:37


origine




Réponses:


Une solution complète et complète à ce problème serait un défi formidable avec tout environnement pris en charge par regex, plus encore Word / Writer. Voir ce post pour savoir pourquoi les regex ne sont pas une panacée pour tous les problèmes de correspondance texte / email qui surviennent. Voyons si une solution pratique est à portée de main ...

Pour moi, la solution pratique consisterait probablement à utiliser des expressions rationnelles à un moment ou à un autre du processus, mais non sans préjuger de l'existence de telles possibilités dans les données: bob@company.organica@yahoo.com... Si les e-mails étaient réellement distribués de manière aléatoire dans un fichier texte, il faudrait en tenir compte - la possibilité de trouver 2 e-mails l'un à côté de l'autre, sans séparateur évident. Est-ce bob@company et organica@yahoo.com ou est-ce company.organica@yahoo.com avec le texte initial bob@ juste du charabia? Je suppose que des exemples convaincants similaires peuvent être trouvés.

Un premier coup raisonnable sur le problème pourrait se situer quelque part dans ce sens:

  1. trouver un regex correspondant aux emails que je peux vivre (pas une chose parfaite!)
  2. trouver tous les emails dans le fichier texte en utilisant cette regex, et les placer sur de nouvelles lignes, en ajoutant une sorte de texte de marqueur comme 'w00t' au début
  3. ordonner le fichier (en utilisant la commande: order), en séparant toutes les lignes 'w00t', celles contenant les e-mails trouvés, du reste du courrier indésirable
  4. parcourez les lignes sans correspondance pour vous assurer de ne pas manquer de données réelles. Si vous trouvez que vous êtes, revenez en arrière et modifiez le regex dans # 1 ou extrayez manuellement ces emails avant de continuer avec l'étape # 2. Sinon, vous risquez de diviser un email (qui ne correspond pas à la regex) en plusieurs parties, en sauvegardant une partie et en jetant l'autre.

1
2018-03-05 06:49