HTMLExtractor

Extrait des données structurées depuis une page web ou toute autre source HTML qui est formatée pour être lue par un humain (capture de données d'écran, ou screen scraping) en utilisant les sélecteurs CSS pour extraire des portions de contenu HTML en attributs d'entités.

Aller à la configuration

Utilisations typiques

  • Extraction de contenu d'une page web

Comment fonctionne-t-il ?

Le HTMLExtractor vous permet de définir plusieurs requêtes à exécuter sur le contenu HTML entrant, qui peut être fourni sous forme d'attribut ou de fichier. Les requêtes sont composées d'un nom d'attribut de sortie, d'un sélecteur CSS qui définit le type de balises à extraire, et du choix d'extraire des balises entières, des valeurs ou des attributs HTML.

Vous pouvez extraire la première balise correspondante ou conserver plusieurs résultats dans un attribut de liste.

HTMLExtractor est plus adapté au traitement de contenu HTML que les Transformers XML ou les expressions régulières en raison d'analyses et de filtres plus indulgents et du support de changements mineurs dans le contenu de la page.

Exemples

Notes

Configuration

Ports d'entrée

Ports de sortie

Paramètres

Éditer les paramètres des Transformers

À l'aide d'un ensemble d'options de menu, les paramètres du Transformer peuvent être attribués en faisant référence à d'autres éléments du traitement. Des fonctions plus avancées, telles qu'un éditeur avancé et un éditeur arithmétique, sont également disponibles dans certains Transformers. Pour accéder à un menu de ces options, cliquez sur à côté du paramètre applicable. Pour plus d'informations, voir Options de menus et paramètres de Transformer.

Définir les valeurs

Il existe plusieurs façons de définir une valeur à utiliser dans un Transformer. La plus simple est de simplement taper une valeur ou une chaîne de caractères, qui peut inclure des fonctions de différents types comme des références d'attributs, des fonctions mathématiques et de chaînes de caractères, et des paramètres d'espace de travail. Il existe un certain nombre d'outils et de raccourcis qui peuvent aider à construire des valeurs, généralement disponibles dans le menu contextuel déroulant adjacent au champ de valeur.

Options - Tables

Les Transformers avec des paramètres de style table possèdent des outils additionnels pour remplir et manipuler des valeurs.

Références

Comportement

Basé sur des entités

Stockage des entités

Non

Dépendances Aucun
Alias  
Historique Implémenté dans FME 2 017.0

FME Community

FME Community iest l'endroit où trouver des démos, des tutoriaux, des articles, des FAQ et bien plus encore. Obtenez des réponses à vos questions, apprenez des autres utilisateurs et suggérez, votez et commentez de nouvelles entités.

Rechercher tous les résultats sur ce Transformer sur FME Community.

 

Les exemples peuvent contenir des informations sous licence Open Government - Vancouver et/ou Open Government - Canada.

Hasklig-Bold.ttf

Hasklig-BoldIt.ttf

Hasklig-Regular.ttf

OpenSans-Bold.ttf

OpenSans-BoldItalic.ttf

OpenSans-Italic.ttf

OpenSans-Regular.ttf

SourceSansPro-Bold.ttf

SourceSansPro-BoldItalic.ttf

SourceSansPro-Italic.ttf

SourceSansPro-Regular.ttf