NLPTrainer
Entraîne un modèle de classification de traitement de langage naturel (TLN, ou NLP pour Natural Language Processing) basé sur les spécifications de l'utilisateur et les données fournies.
NLPTrainer s'attend à recevoir en entrée des données balisées, chaque entité portant un texte et une étiquette uniques. Un prétraitement de ces données d'apprentissage peut être nécessaire, et le Transformer AttributeCreator peut être utile pour cela. Sur la base de l'ensemble des données d'apprentissage et des entités NLP (types spécifiques d'informations sur le texte) que l'utilisateur spécifie, un modèle sera alors créé et écrit dans un fichier *.fmd (FME MoDel). Le Transformer compagnon de celui-ci, NLPClassifier, utilise ces fichiers *.fmd pour effectuer une classification du langage naturel, en classant les textes dans les catégories étiquetées dans les données d'apprentissage.
Notes
- Pour plus d'informations sur le traitement du langage naturel avec FME, consultez la documentation du Transformer compagnon NLPClassifier.
Configuration
Ports en entrée
Ce Transformer s'attend à recevoir un corpus de textes étiquetés sous la forme d'entités contenant ces informations comme attributs. Toutes les entités entrantes doivent avoir les mêmes noms d'attributs pour chacun des éléments d'information requis, à la fois l'étiquette et le texte. Par exemple, si l'une des entités d'entrée utilise 'mon_étiquette' comme nom d'attribut pour l'étiquette et 'mon_texte' comme nom d'attribut pour le texte, toutes les autres entités d'entrée doivent également utiliser 'mon_étiquette' pour les étiquettes et 'mon_texte' pour les textes.
Ports de sortie
Ce port produira une entité après la fin du processus d'apprentissage. Les attributs de l'entité indiqueront la taille des ensembles de données de test et d'apprentissage, ainsi que la précision du modèle sur l'ensemble de test (sur une échelle de 0 à 1, où 1 est une précision parfaite), et quelques informations sur les entités NLP que le modèle trouve utiles. (La structure exacte de ces informations dépend du type de modèle). Ces informations peuvent être facilement examinées en connectant un enregistreur.
Les entités qui ne peuvent être utilisées pour entraîner le modèle, souvent parce que le texte lui-même ou l'étiquette ne peuvent être récupérés, sont dirigés vers ce port.
Gestion des entités rejetées : ce paramètre permet d'interrompre la traduction ou de la poursuivre lorsqu'elle rencontre une entité rejetée. Ce paramètre est disponible à la fois comme option par défaut de FME et comme paramètre de traitement.
Paramètres
Type de modèle à entraîner | Ce paramètre spécifie le type de modèle que le NLPTrainer va produire. Tous les types de modèles peuvent être utilisés avec le Transformer NLPClassifier. |
Étiquette | L'attribut des entités en entrée qui indique l'étiquette. |
Nom de fichier de modèle en sortie | L'emplacement d'enregistrement du modèle, sous la forme d'un fichier *.fmd. |
Texte | L'attribut des entités en entrée qui indique le texte. | ||||||||||||||||||||
Sensibilité à la casse | Détermine si oui ou non le modèle sera sensible à la casse. | ||||||||||||||||||||
Pourcentage de données à tester | Détermine le pourcentage des données d'entrée qui sera utilisé pour tester le modèle terminé. Le reste des données d'entrée sera utilisé pour la formation. | ||||||||||||||||||||
Type de texte | Indique si le modèle à entraîner doit regarder des mots uniques ou des textes multi-mots. | ||||||||||||||||||||
Entité TNL |
Permet à l'utilisateur d'indiquer au NLPTrainer les informations sur le texte à prendre en compte. Des spécifications d'entités NLP différentes produiront des modèles différents, dont la précision peut varier considérablement. Caractères de début
Contient des mots communs
Expression régulière
Contient une chaîne de caractères
Caractères de fin
Longueur
Longueur moyenne
|
Éditer les paramètres des Transformers
À l'aide d'un ensemble d'options de menu, les paramètres du Transformer peuvent être attribués en faisant référence à d'autres éléments du traitement. Des fonctions plus avancées, telles qu'un éditeur avancé et un éditeur arithmétique, sont également disponibles dans certains Transformers. Pour accéder à un menu de ces options, cliquez sur à côté du paramètre applicable. Pour plus d'informations, voir Options de menus et paramètres de Transformer.
Définir les valeurs
Il existe plusieurs façons de définir une valeur à utiliser dans un Transformer. La plus simple est de simplement taper une valeur ou une chaîne de caractères, qui peut inclure des fonctions de différents types comme des références d'attributs, des fonctions mathématiques et de chaînes de caractères, et des paramètres d'espace de travail. Il existe un certain nombre d'outils et de raccourcis qui peuvent aider à construire des valeurs, généralement disponibles dans le menu contextuel déroulant adjacent au champ de valeur.
Utilisation de l'éditeur de texte
L'éditeur de texte fournit un moyen efficace de construire des chaînes de textes (dont les expressions régulières) à partir de données source diverses, telles que des attributs, des paramètres et des constantes, et le résultat est directement utilisé dans le paramètre.
Utilisation de l'éditeur arithmétique
L'éditeur arithmétique fournit un moyen simple de construire des expressions mathématiques à partir de plusieurs données source, telles que des attributs et des fonctions, et le résultat est directement utilisé dans un paramètre.
Valeur conditionnelle
Définit des valeurs selon un ou plusieurs tests.
Fenêtre de définition de conditions
Contenu
Les expressions et chaînes de caractères peuvent inclure des fonctions, caractères, paramètres et plus.
Lors du paramétrage des valeurs - qu'elles soient entrées directement dans un paramètre ou construites en utilisant l'un des éditeurs - les chaînes de caractères et les expressions contenant des fonctions Chaîne de caractères, Math, Date et heure ou Entité FME auront ces fonctions évaluées. Par conséquent, les noms de ces fonctions (sous la forme @<nom_de_fonction>) ne doivent pas être utilisés comme valeurs littérales de chaîne de caractères.
Ces fonctions manipulent les chaînes de caractères. | |
Caractères spéciaux |
Un ensemble de caractères de contrôle est disponible dans l'éditeur de texte. |
Plusieurs fonctions sont disponibles dans les deux éditeurs. | |
Fonctions Date/heure | Les fonctions de dates et heures sont disponibles dans l'Editeur texte. |
Ces opérateur sont disponibles dans l'éditeur arithmétique. | |
Elles retournent des valeurs spécifiques aux entités. | |
Les paramètres FME et spécifiques au projet peuvent être utilisés. | |
Créer et modifier un paramètre publié | Créer ses propres paramètres éditables. |
Options - Tables
Les Transformers avec des paramètres de style table possèdent des outils additionnels pour remplir et manipuler des valeurs.
Réordonner
|
Activé une fois que vous avez cliqué sur un élément de ligne. Les choix comprennent :
|
Couper, Copier et Coller
|
Activé une fois que vous avez cliqué sur un élément de ligne. Les choix comprennent :
Copier, copier et coller peuvent être utilisés au sein d'un Transformer ou entre Transfromers. |
Filtre
|
Commencez à taper une chaîne de caractères, et la matrice n'affichera que les lignes correspondant à ces caractères. Recherche dans toutes les colonnes. Cela n'affecte que l'affichage des attributs dans le Transformer - cela ne change pas les attributs qui sont sortis. |
Importer
|
Le bouton d'import remplit la table avec un jeu de nouveaux attributs lus depuis un jeu de données. L'application spécifique varie selon les Transformers. |
Réinitialiser/Rafraîchir
|
Réinitialise la table à son état initial, et peut fournir des options additionnelles pour supprimer des entrées invalides. Le comportement varie d'un Transformer à l'autre. |
Note : Tous les outils ne sont pas disponibles dans tous les Transformers.
Références
Comportement |
|
Stockage des entités |
Oui |
Dépendances | |
Alias | |
Historique | Implémenté dans FME 2019.0 |
FME Community
FME Community iest l'endroit où trouver des démos, des tutoriaux, des articles, des FAQ et bien plus encore. Obtenez des réponses à vos questions, apprenez des autres utilisateurs et suggérez, votez et commentez de nouvelles entités.
Rechercher tous les résultats sur ce Transformer sur FME Community.
Les exemples peuvent contenir des informations sous licence Open Government - Vancouver et/ou Open Government - Canada.