Es un instrumento de análisis del texto que permite que usuarios construyan y valide nuevas categorías a petición usando a unos cuantos sembrando condiciones. También cubre un juego amplio, pre validado de 200 emocionales y categorías actuales.
3. -Los léxicos de alta calidad permiten que nosotros analicemos la lengua en la escala y a través
de una amplia variedad de señales. Por ejemplo, investigadores a menudo usan LIWC (Conde
de la Palabra y la Pregunta lingüístico) para analizar puestos de medios sociales, contando
palabras en categorías léxicas como tristeza, salud y emoción positiva.
- LIWC muchas ventajas: es rápido, fácil a hacer de intérprete, y extensivamente validado. Los
investigadores pueden inspeccionar fácilmente y modificar los términos en sus categorías —
listas de palabras que, por ejemplo, están relacionada
“grito” y “guerra” a la cólera de emoción. Pero como otro léxicos populares, LIWC es pequeño:
tiene sólo 40 actuales y las categorías emocionales, muchas de las cuales contienen menos de
100 palabras. Adelante, muchas categorías potencialmente útiles como violencia o los medios
sociales no existen en léxicos corrientes, requiriendo cura.tion ad hoc y validación de nuevo
patrón oro listas de palabras. Otras categorías se pueden beneficiar de actualizar con términos
modernos como “PayPal” por el dinero o “selfie” durante ocio.
4. Es un instrumento de análisis del texto que permite que usuarios construyan y valide
nuevas categorías a petición usando a unos cuantos sembrando condiciones. También
cubre un juego amplio, pre validado de 200 emocionales y categorías actuales.
• Un enfoque a generación y convalidación de clasificación de la palabra diccionarios
usando una combinación de aprendizaje profundo y micro tarea crowdsourcing.
• Los resultados que sugieren Empath pueden generar categorías sumamente similar a
categorías que se han templado la mano y psico métricamente validado por gente
(promedio Pearson correlación de 0.906), hasta sin un filtro de la muchedumbre (0.90).
5. APLICACIONES DE EMPATH
La exploración del engaño dataset
Dirigimos el juego lleno de Empath de categorías sobre el verídico y revisiones
engañosas y estadística agregada producida para cada uno.
La utilización de medios normalizados de la categoría cuenta a cada uno grupo,
entonces calculamos proporciones de probabilidades y p-valores para el categorías
con la mayor probabilidad para aparecer en revisiones engañosas y verídicas.
Todos los resultados que relatamos son significativos después de Bonferroni corrección
6. Empath: una vida el léxico extrajo del texto moderno en la red. Empath permite investigar para
generar y validar nuevas categorías léxicas a petición, usando una combinación de aprendizaje
profundo y crowdsourcing. Por ejemplo, la utilización de la semilla llama “el gorjeo” y
“Facebook”, podemos generar y validar una categoría para medios sociales.
Empath también analiza el texto a través de 200 incorporados, categorías pre validadas
dibujadas de conocimiento existente las bases y la literatura sobre emociones humanas, como:
abandono (privan, respuesta negativa)
gobierno (embajada, demócrata)
fuerza (resistente, poderoso)
tecnología (iPad, androide)
Empath combina técnicas de la PNL modernas con las ventajas de léxicos hechos a mano sus
categorías son listas de palabras transparentes, fácilmente ampliadas y rápido.
Y como LIWC (pero a diferencia de otro aprendizaje de la máquina modelos), los contenido de Empath son validados por la gente.
7. Mientras Empath presenta un enfoque que se puede entrenar en cualquier recopilación del
texto, en este periódico usamos 1.8 mil millones de palabras de la moderna ficción aficionada.
Lengua espacial en mentiras
Mientras el estudio original proporcionó algunas pruebas estos mentirosos usan la lengua
menos espacialmente descriptivas, no era capaz de probar la teoría directamente. Usando
Empath, podemos generar un nuevo juego que el humano validó en términos que capturan esta
idea, creando una nueva categoría espacial.
Así, decimos a Empath sembrar la categoría con los términos “grande”, “pequeño”, y “circular”.
Empath entonces descubre una serie de términos relacionados y usa el muchedumbre para
validarlos.
produciendo el racimo: circular, pequeño, grande, grande, enorme, gigantesco, diminuto, rectangular, rectángulo,
masivo, gigantesco, enorme, más bien pequeño, doblado, medio, oval, puesto la talla, talla, miniatura, círculo,
colosal, centro, triangular, forma, cuadrada, redonda, formada, decorativa.
8. Ejemplo :Entendimiento de lengua en revisiones de la
película
¿De qué disfrutan las clases de películas revisores? Lo que las palabras hacen ¿los revisores
usan para la alabanza o los dejan por los suelos? En nuestro segundo ejemplo, mostramos cómo
Empath nos puede ayudar a descubrir tendencias en un dataset de revisiones de la película
coleccionadas por Pang. Este dataset contiene revisiones de la película de 2000, divididas
regularmente a través del positivo y sentimiento negativo.
Empath analiza el texto a través de cientos de temas y emociones.
Como LIWC y otros instrumentos basados en el diccionario, cuenta la categoría términos en un
documento del texto. Sin embargo, Empath cubre al juego más amplio de categorías que otros
instrumentos y los usuarios pueden generar y valide nuevas categorías con unas palabras de la
semilla.
El diseño de las categorías conducidas por los datos de Empath
Analizando datos textuales, los investigadores colectivamente toman parte con muchas categorías
lingüísticas posibles. Por ejemplo, social los científicos estudian las redes de conversaciones que
rodean depresión en Gorjeo [38], psicólogos el papel de auto presentación en comunidades de
datación en línea , o digital humanistas el papel de feminidad en literatura griega.
9. Empath pretende hacer posible todos estos análisis (y más) a través de su 200 humano validó
categorías, que temas de la tapa como violencia, depresión o feminidad. Donde ¿los nombres
de estas categorías vienen de? Adoptamos a enfoque conducido por los datos usando la base
de conocimiento de ConceptNet
Las relaciones de dependencia en ConceptNet proporcionan a la jerarquía de la información y
hechos que sirven de una fuente de categoría nombres y palabras de la semilla para Empath
(p.ej., la guerra es una forma del conflicto, la marcha es una forma de ejercicio). Preferimos
este enfoque a uno puramente manual ya que puede escalar potencialmente a miles de otras
nuevas categorías.
Por ejemplo, cuando un investigador proporciona “camisa” y “sombrero” como palabras de la
semilla, ConceptNet nos dice que las camisas y los sombreros son artículos de ropa. De este
modo, Empath puede crear y validar una ropa categoría, usando “camisa” y “sombrero” como
palabras de la semilla: blazer, chaleco, suéter, sin mangas, blusa, tela escocesa, medias,
camiseta, uso, chaqueta, buttondown, longsleeve, falda, camiseta, buttonup, de manga larga,
hoody, tanktop, polainas.
10. Expresamente, para generar los nombres de la categoría de Empath y semilla términos,
seleccionamos 200 relaciones de dependencia comunes en ConceptNet, acondicionado en 10,000
palabras comunes en nuestra recopilación. Entonces a mano refinamos esta lista, eliminando
redundante o categorías escasas. Para algunas categorías añadimos la semilla adicional llama para
representar mejor el concepto, resultando en un juego final de dos a cinco términos de la semilla
para cada categoría.
nos reunimos evalúan correlaciones de Pearson contra LIWC para soldado y EmoLex (dos humano
existente léxicos validados). Encontramos una correlación de la prueba patrón de 0.876 entre
soldado y LIWC sobre emoción positiva, negativa emoción, religión, trabajo, y logro y una
correlación de 0.899 entre EmoLex y LIWC sobre emoción positiva, emoción negativa, cólera y
tristeza. Mientras EmoLex y el soldado comúnmente se considera como patrones oro, guardan
correlación imperfectamente con LIWC. Tomamos esto como pruebas esto los léxicos del patrón
oro pueden discrepar: si Empath se acerca su actuación contra LIWC, está de acuerdo con LIWC
también ya que otros diccionarios con cuidado validados están de acuerdo con LIWC.
11. CONCLUSIÓN
Empath pretende combinar técnicas de la PNL modernas con el transparencia de diccionarios
como LIWC. En hacer tan, provee tanto formas más amplias como más profundas de análisis
del texto que instrumentos existentes. En la anchura, Empath ofrece cientos del predefinido
las lentillas a través de las cuales los investigadores pueden analizar el texto. En profundidad,
sus categorías definidas por los usuarios proporcionan un medio flexible por qué
investigadores pueden preguntar a preguntas concretas de la esfera. Éstos las preguntas
cambian alguna vez, como es nuestro uso de la lengua. Empath es un léxico vivo – capaz de
mantenerse al corriente de cada uno.