TERM
EXTRACTION
TRANSFORMATION

Dimitri Villamar
Term Extraction Transformation

Extrae términos del texto en una columna de
entrada de la transformación y, a continuación,
escribe los términos a una columna de salida de la
transformación.

Dimitri Villamar
Term Extraction Transformation
Utilizar la TET para descubrir el contenido de un conjunto de datos.
Por ejemplo, el texto que contiene mensajes de correo electrónico puede
proporcionar información útil sobre los productos, por lo que se puede utilizar
la transformación Extracción de términos para extraer los temas de discusión
en los mensajes, como una forma de analizar los comentarios.

Dimitri Villamar
Términos extraídos y tipos de
datos

TET, extrae nombres solamente, sólo frases nominales, o ambos sustantivos
y frases sustantivo. Un nombre es un nombre simple, un sustativo nominal es
de al menos dos palabras, de las cuales una es un sustantivo y el otro es un
sustantivo o un adjetivo.

Dimitri Villamar
Términos extraídos y tipos de
datos
Por ejemplo, si la transformación usa la opción de sólo los nombres, extrae
términos como "bicicleta" y "paisaje", y si la transformación usa la opción
sustantivo nominal, extrae términos como "nueva bicicleta azul", "casco de la
bicicleta" y "bicicletas en caja".

Artículos y pronombres no se extraen. Por ejemplo, la transformación
Extracción de términos extrae la bicicleta plazo a partir del texto de la
bicicleta, la bicicleta, y que la bicicleta

Dimitri Villamar
Condiciones de exclusión
Opcionalmente, la transformación Extracción de términos puede hacer
referencia a una columna en una tabla que contiene los términos de
exclusión, es decir, términos que la transformación debe saltar cuando se
extrae términos de un conjunto de datos

Dimitri Villamar
Sentencia y límites de las
palabras
La TET, separa el texto en frases utilizando los siguientes caracteres como
límites de la frase:
Caracteres de salto de línea ASCII 0x0D (retorno de carro) y 0x0A (avance
de línea). Para usar este carácter como límite de oración, tiene que haber
dos o más caracteres de salto de línea en una fila.
Los guiones (-). Para usar este carácter como límite de oración, ni el
carácter a la izquierda ni a la derecha del guión puede ser una letra.
Subrayado (_). Para usar este carácter como límite de oración, ni el
carácter a la izquierda ni a la derecha del guión puede ser una letra.
Todos los caracteres Unicode que son menos que o igual a 0x19, o mayor
que o igual a 0x7b.
Las combinaciones de números, signos de puntuación y caracteres
alfabéticos. Por ejemplo, A23B # 99 regresa el término A23B.
Los personajes,%, @, &, $, #, *,:.!?,;,,,,,, <,>, +, =, ^, ~, |, , /, (,), [,], {,}, "y '.x
Dimitri Villamar
Sentencia y límites de las
palabras
Caracteres de salto de línea ASCII 0x0D (retorno de carro) y 0x0A (avance de
línea).
Para usar este carácter como límite de oración, tiene que haber dos o más
caracteres de salto de línea en una fila.

Los guiones (-). Para usar este carácter como límite de oración, ni el carácter a la
izquierda ni a la derecha del guión puede ser una letra.
Subrayado (_). Para usar este carácter como límite de oración, ni el carácter a la
izquierda ni a la derecha del guión puede ser una letra.
Todos los caracteres Unicode que son menos que o igual a 0x19, o mayor que o
igual a 0x7b.
Las combinaciones de números, signos de puntuación y caracteres alfabéticos.
Por ejemplo, A23B # 99 regresa el término A23B.
Los personajes,%, @, &, $, #, *,:.!?,;,,,,,, <,>, +, =, ^, ~, |, , /, (,), [,],Dimitri Villamar
{,}, "y '.
Sentencia y límites de las
palabras
Siglas que incluyen uno o más puntos (.) no seran separadas en varias
sentencias.
La TET luego separa la oración en palabras usando los siguientes límites de
las palabras:

•Espacio
•Tabulaciones
•0x0d ASCII (retorno de carro)
•0x0a ASCII (salto de línea)

Dimitri Villamar
La configuración del TET
La TET utiliza algoritmos internos y modelos estadísticos para generar sus
resultados.

Puede que tenga que ejecutar la TET varias veces y examinar los resultados
para configurar la transformación para generar el tipo de resultados que
funcione para su solución de minería de texto.

Dimitri Villamar

Term extraction transformation

  • 1.
  • 2.
    Term Extraction Transformation Extraetérminos del texto en una columna de entrada de la transformación y, a continuación, escribe los términos a una columna de salida de la transformación. Dimitri Villamar
  • 3.
    Term Extraction Transformation Utilizarla TET para descubrir el contenido de un conjunto de datos. Por ejemplo, el texto que contiene mensajes de correo electrónico puede proporcionar información útil sobre los productos, por lo que se puede utilizar la transformación Extracción de términos para extraer los temas de discusión en los mensajes, como una forma de analizar los comentarios. Dimitri Villamar
  • 4.
    Términos extraídos ytipos de datos TET, extrae nombres solamente, sólo frases nominales, o ambos sustantivos y frases sustantivo. Un nombre es un nombre simple, un sustativo nominal es de al menos dos palabras, de las cuales una es un sustantivo y el otro es un sustantivo o un adjetivo. Dimitri Villamar
  • 5.
    Términos extraídos ytipos de datos Por ejemplo, si la transformación usa la opción de sólo los nombres, extrae términos como "bicicleta" y "paisaje", y si la transformación usa la opción sustantivo nominal, extrae términos como "nueva bicicleta azul", "casco de la bicicleta" y "bicicletas en caja". Artículos y pronombres no se extraen. Por ejemplo, la transformación Extracción de términos extrae la bicicleta plazo a partir del texto de la bicicleta, la bicicleta, y que la bicicleta Dimitri Villamar
  • 6.
    Condiciones de exclusión Opcionalmente,la transformación Extracción de términos puede hacer referencia a una columna en una tabla que contiene los términos de exclusión, es decir, términos que la transformación debe saltar cuando se extrae términos de un conjunto de datos Dimitri Villamar
  • 7.
    Sentencia y límitesde las palabras La TET, separa el texto en frases utilizando los siguientes caracteres como límites de la frase: Caracteres de salto de línea ASCII 0x0D (retorno de carro) y 0x0A (avance de línea). Para usar este carácter como límite de oración, tiene que haber dos o más caracteres de salto de línea en una fila. Los guiones (-). Para usar este carácter como límite de oración, ni el carácter a la izquierda ni a la derecha del guión puede ser una letra. Subrayado (_). Para usar este carácter como límite de oración, ni el carácter a la izquierda ni a la derecha del guión puede ser una letra. Todos los caracteres Unicode que son menos que o igual a 0x19, o mayor que o igual a 0x7b. Las combinaciones de números, signos de puntuación y caracteres alfabéticos. Por ejemplo, A23B # 99 regresa el término A23B. Los personajes,%, @, &, $, #, *,:.!?,;,,,,,, <,>, +, =, ^, ~, |, , /, (,), [,], {,}, "y '.x Dimitri Villamar
  • 8.
    Sentencia y límitesde las palabras Caracteres de salto de línea ASCII 0x0D (retorno de carro) y 0x0A (avance de línea). Para usar este carácter como límite de oración, tiene que haber dos o más caracteres de salto de línea en una fila. Los guiones (-). Para usar este carácter como límite de oración, ni el carácter a la izquierda ni a la derecha del guión puede ser una letra. Subrayado (_). Para usar este carácter como límite de oración, ni el carácter a la izquierda ni a la derecha del guión puede ser una letra. Todos los caracteres Unicode que son menos que o igual a 0x19, o mayor que o igual a 0x7b. Las combinaciones de números, signos de puntuación y caracteres alfabéticos. Por ejemplo, A23B # 99 regresa el término A23B. Los personajes,%, @, &, $, #, *,:.!?,;,,,,,, <,>, +, =, ^, ~, |, , /, (,), [,],Dimitri Villamar {,}, "y '.
  • 9.
    Sentencia y límitesde las palabras Siglas que incluyen uno o más puntos (.) no seran separadas en varias sentencias. La TET luego separa la oración en palabras usando los siguientes límites de las palabras: •Espacio •Tabulaciones •0x0d ASCII (retorno de carro) •0x0a ASCII (salto de línea) Dimitri Villamar
  • 10.
    La configuración delTET La TET utiliza algoritmos internos y modelos estadísticos para generar sus resultados. Puede que tenga que ejecutar la TET varias veces y examinar los resultados para configurar la transformación para generar el tipo de resultados que funcione para su solución de minería de texto. Dimitri Villamar