Récupération d’articles¶
La récupération d’articles par Heraldic s’effectue via un utilitaire en ligne de commande ::
python -m heraldic <commande> [options]
Actuellement, il existe deux commandes :
«
gather
», qui permet la récupération d’un article, ou une liste d’articles dans un fichier. L’aide complète est :usage: heraldic gather [-h] (-f FILE | -i | -u [URL [URL ...]]) [-d DEPTH] [-o] [-t] optional arguments: -h, --help show this help message and exit -f FILE, --file FILE File containing one or several URLs (one per line) -i, --stdin Get URL from stdin -u [URL [URL ...]], --url [URL [URL ...]] URL to gather -d DEPTH, --depth DEPTH Depth of recursive gathering of sources -o, --override Gather again up-to-date documents -t, --test Stop on optional parsing exception
«
harvest
», qui permet la récupération d’un flux RSS ou tous ceux qui sont enregistrés dans l’indexeur. L’aide complète est :usage: heraldic harvest [-h] [-s] [-o] [-d DEPTH] [-i] [-t] [-r RECURSIVE_STEP] [media] positional arguments: media Specify only one media to harvest optional arguments: -h, --help show this help message and exit -s, --sources Gather the sources of indexed documents instead of feeds -o, --override Gather again up-to-date documents -d DEPTH, --depth DEPTH Depth of recursive gathering of sources -i, --crawl-internally Only crawl domains for this media -t, --delay Time between document gathering (in seconds) -r RECURSIVE_STEP, --recursive-step RECURSIVE_STEP Step between recursive crawling in gathered sources (0 disables)
On remarque l’option DEPTH
qui permet la récupération récursive des liens dans les articles, si ceux-ci sont supportés bien entendu.
L’option sources
permet de récupérer, à la place d’un feed, les URL placés en source de documents déjà indexés. Dans ce contexte, l’option RECURSIVE_STEP
détermine le nombre de documents à ainsi récupérer avant d’en effectuer une récupération récursive (celle-ci est plus efficace car elle inclut les sources du type « Lire aussi » ou « Pour aller plus loin » placées sur la page mais pas indexées).
«
test
», qui permet la récupération simplifiée des articles spécifiés comme référence pour les différents extracteurs d’un ou de l’ensemble des médias supportés :usage: heraldic test [-h] [media] positional arguments: media Specify only one media to test optional arguments: -h, --help show this help message and exit