SlideShare una empresa de Scribd logo
1 de 31
Неологизмы в социальной
сети Фейсбук
Муравьев Н.А., Панченко А.И., Объедков С.А.
nikita.muraviev@gmail.com
Лаборатория цифрового общества, Москва
Лаборатория цифрового общества
• Маркетинговые, социальные, лингвистические исследования
социальных сетей
• Сбор, обработка и анализ больших массивов данных
• Профилирование рекламы в соцсетях
• Разработка интернет-приложений нового поколения
Актуальность исследований заимствований
и неологизмов
• Состояние вопроса
• Широкий круг теоретических и сравнительных исследований по
заимствованиям и неологизмам
• Haugen 1950, «The analysis of linguistic borrowing»
• Capuz 1997, Winter-Froemel 2008, Peperkamp&Dupoux 2003,
LaCharité&Paradis 2005 и многие другие
• Конкретно языковые исследования, русский язык
• Крысин 1968 "Иноязычные слова в современном русском языке"
• Брейтер 1997, Дьяков 2003, Маринова 2013
Заимствования и неологизмы в соцсетях
• Специфичность языка интернета
• Интернет-дискурс как особый промежуточный модус между
устным и письменным
• Особый пласт интернет-лексики (трекер, паблик, репост)
• Высокая интенсивность изменений в лексике и грамматике языка
• Значительное влияние английского языка
• Специфика коммуникации в социальной сети – посты,
комментарии, лайки и т.д.
Заимствования и неологизмы в соцсетях
• Задачи нашего исследования
• Создание исследовательской базы – корпуса и словаря на основе
постов в соц. сетях
• Фиксирование текущего состояния языка соц. сетей для
отслеживания изменений
• Получение количественных данных
• Вынесение предварительных суждений о текущем состоянии
языка соц. сетей и языка вообще
Сбор и обработка и анализ материала
• Источник: русскоязычный публичный сегмент социальной сети,
сообщения пользователей с «открытым» профилем
https://developers.facebook.com/tools/explorer
• Метод извлечения данных: использование программного
интерфейса (API) Фейсбука
• Первый этап: сбор корпуса анонимизированных постов и
комментариев Фейсбука
• Второй этап: посторение словаря на основе корпуса
полуавтоматическим способом
• Третий этап: лингвистический анализ данных
Первый этап: сбор корпуса
• Всего 573 миллионов анонимизированных постов и сообщений
3,2 млн. пользователей социальной сети
• Только тексты на русском языке
• Язык каждого из входных текстов был определён автоматически
при помощи модуля langid.py [Lui & Baldwin 2012].
• Посты за период с 2006 по 2013 год.
• Первый пост датируется 5 августа 2006 года, последний – 13
ноября 2013 года.
• Подавляющее большинство постов приходится на период с 2011
по 2013 год.
Статистика корпуса
Параметр Значение
Количество анонимизированных
пользователей
3,190,813
Язык Русский
Количество постов 426,089,762
Количество комментариев 147,140,265
Количество текстов (посты и комментарии) 573,230,027
Количество словоформ в постах 20,775,837,467
Количество словоформ в комментариях 2,759,777,659
Количество словоформ (посты и комментарии) 23,535,615,126
Средняя длина поста, словоформ 49
Средняя длина комментария, словоформ 19
Второй этап: построение словаря
• Морфологическая обработка данных
• Токенизация и лемматизиация при помощи морфологического
анализатора, основанного на словаре АОТ на базе словаря
А.А.Зализняка [Зализняк 1977].
• Мы использовали собственную MapReduce реализацию модуля
построения частотного словаря, основанную на модуле
морфологического анализа RussianMorphology
• Аннотация при помощи морфологического анализатора PyMorphy
• Каждой лемме была присвоена часть речи
Второй этап: построение словаря
• Автоматическая фильтрация
• Для каждой леммы было указано, входит ли она в словарь
OpenCorpora (основан на словаре АОТ, содержит информацию о
388,790 леммах и 5,094,925 словоформах).
• Отсев имеющихся в этом словаре единиц
• НО: Произошел отсев новых слов, омонимичных существующим
словам русского языка (пример: слово «пост»)
Второй этап: построение словаря
• Экспертное удаление «шума»
• Ручная фильтрация 10,000 наиболее частотных слов.
• Отсев разнообразного «шума»: нерусские слова, неверно
лемматизированные слова и другие артефакты автоматической
обработки (ть, нибыть, гый, санкт, що, ул, пр, нью, грн, ца,
рожение, т.д, від, україни, вебинара).
• Отбор из полученного списка 624 наиболее частотных
несловарных слов
Второй этап: построение словаря
• Экспертное удаление нерелевантных единиц
• В списке из 624 выявлено большое количество несловарных слов,
которые не относятся к неологизмам:
• Имена собственные
• «Сниженная» лексика
• Слова вроде «авиаперелет», «переориентироваться» или
«однодневный», которые не содержатся в OpenCorpora, но есть в
других словарях.
• Дополнительная ручная фильтрация списка по данным
Яндекс.Словари и НКРЯ с 2000 года (поиск по всему корпусу)
Второй этап: построение словаря
• Итог – список из 168 популярных неологизмов, извлеченных из
корпуса текстов социальной сети.
• 10 наиболее частотных лексем: вконтакт, твиттер, перепост,
скайп, фейсбук, плэйкаст, демотиватор, плейлист, личка,
перепостить
Третий этап: лингвистический анализ
материала
• Краткая этимологическая, морфологическая, синтаксическая и
семантическая характеристика слов
• Классификация по 4 основаниям
• Тип (источник) заимствования
• Часть речи
• Тип и модель деривации
• Тематика
Тип заимствования
• Исконные: печенька, улыбизм, приколист и др.
• Слова с иноязычными корнями: мульт, видеорепортаж,
евроинтеграция
• Англицизмы: фолловер, битрейт, флешмоб и др.
• Галлицизмы: декупаж
• Смешанные слова: перепост, имхонуть, реферальный
Тип заимствования (кол-во слов из 168, %)
0
10
20
30
40
50
60
70
80
90
100
Англицизмы
54,8 %
Смешанные
20,8 %
Исконные
32%
С инояз. корнями
4,8 %
Галлицизмы
0,6 %
Тематика
• Интернет: оффлайн, браузерный, мем
• Оценка: суперский, треш/трэш, жжот
• Маркетинг: реферал, продакшн, инфопродукт
• Мультимедиа: фотопроект, плэйкаст, гифка
• Техника: айпад, ноут, флешка
• Культура: флешмоб/флэшмоб, демотиватор
Тематика (кол-во слов из 168, %)
0
5
10
15
20
25
30
35
40
Интернет
20,8 %
Оценка
14,9 %
Маркетинг
10,7 %
Мультимедиа
8,9 %
Техника
8,4 %
Культура
3,6 %
Тематика и этимология
• Поле «интернет» представлено практически исключительно
англицизмами и образованными от них словами
• Большинство слов полей «маркетинг» и «техника» – тоже
англицизмы
• 16 из 25 слов поля «оценка» состоят из исконно русских корней
(= 0,5 от общего числа исконных)
• Поле «мультимедиа» состоит в основном из слов с иноязычнми
корнями и смешанных слов (обычно композиты от фото-, видео-,
аудио-, теле-)
Часть речи
• Традиционные классы (N, V, Adj, Adv, Interj)
• Дополнительный класс (Nmod):
• брэйн-система, лайф-коуч, трэш-комедия, байк-центр
• Довольно распространенный в нашем материале (15 слов из 168)
• Промежуточный класс между сущ. и прил.
• Морфологически не изменяемые
• Модифицируют существительные
• Некоторые не имеют самостоятельного употребления в позиции
существительного (этот трэш/*этот брейн/*этот лайф)
Часть речи
• Всего из 168 слов (а точно ли не 165?):
• Существительные (N): 123 (73,2 %)
• Именные модификаторы (Nmod): 15 (8,9 %)
• Глаголы (V): 15 (8,9 %)
• Прилагательные (Adj): 8 (4,8 %)
• Наречия (Adv): 3 (1,8 %)
• Междометия (Interj): 4 (2,4 %)
Часть речи (кол-во слов из 168, %)
0
20
40
60
80
100
120
140
Сущ.
73,2 %
Им. мод.
8,9 %
Глаг.
8,9 %
Прил.
4,8 %
Нар.
1,8 %
Межд.
2,4 %
Тип и модель деривации
• Традиционное деление на префиксальный, суффиксальный,
префиксально-суффиксальный и композитный способ
словообразования
• Модели словообразования, разнообразие аффиксальных средств
• Cуффикс, ST-к: флешка, гифка, личка
• Префикс, пере-ST: перепост
• Префикс+суффикс, за-ST-и: забанить, запостить
• Словосложение, ST-ST: фотоподборка, госуслуга
Типы деривации (кол-во слов из 168, %)
0
20
40
60
80
100
120
Непроизв.
59,8 %
Суффикс
19,6 %
Композиты
11,9 %
Префикс
4,2 %
Преф+суфф
4,2 %
Модели деривации (кол-во слов из 168, %)
0
5
10
15
20
25
ST-(о)-ST
12,5 %
ST-к
3,6 %
ST-н
3,6 %
ST-и
1,8 %
за-ST-и
1,8 %
Тип и модель деривации
• Консерватизм в деривационных моделях
• Единственная инновация – модель ST-ч
• Предположительно, выглядит как V (inf) + j
• В нашем материале только одно слово ржач
• Известно также о существовании некоторых других: срач, махач
Некоторые итоги и обобщения
• Опыт построения корпуса и словаря
• База для дальнейших исследований
• Теоретические наблюдения касательно современного состояния
русского языка в области лексики
• Значительное влияние английского языка
• Семантические поля с англоязычным vs исконным наполнением
• Консерватизм в грамматических свойствах и деривационных
моделях
Дальнейшие направления исследований
• Корпусные исследования языка соцсетей
• Временная динамика языковых изменений
• Социология и социолингвистика пользователей
• Взаимосвязь языковых изменений и событий реального мира
• Автоматическая обработка новых, некодифицированных
лексических единиц
• Сравнительный анализ данных Фейсбука и В контакте
Спасибо за внимание!
Литература
• Брейтер М. А. (1997), Англицизмы в русском языке: история и перспективы:
Пособие для иностранных студентов-русистов. // Владивосток, Диалог-МГУ.
• Дьяков А. И. (2003), Причины интенсивного заимствования англицизмов в
современном русском языке. // Язык и культура. - Новосибирск. - С. 35-43
• Зализняк, А. А. (1977). Грамматический словарь русского языка:
словоизменение: около 100 000 слов. // Изд-во" Русский язык".
• Крысин Л.П. (1968) Иноязычные слова в современном русском языке - М.:
Наука
• Маринова. Е.В. (2013) Иноязычная лексика современного русского языка:
учеб. пособие, 2-е изд., М. : ФЛИНТА
• Capuz Juan Gómez. (1997), Towards a Typological Classification of Linguistic
Borrowing (Illustrated with Anglicisms in Romance Languages) // Revista
Alicantina de Estudios Ingleses 10: 81-94
Литература
• Haugen E. (1950), The analysis of linguistic borrowing. // Language: 210-231
• LaCharité, D. & Paradis, C. (2005). Category Preservation and Proximity versus
Phonetic Approximation in Loanword Adaptation. // Linguistic Inquiry 36/2, 223-
258.
• Lui M. and Baldwin T. (2012). langid. py: An off-the-shelf language identification
tool. // In Proceedings of the ACL 2012 System Demonstrations, pages 25–30.
Association for Computational Linguistics.
• Peperkamp, S. & Dupoux, E. (2003). Reinterpreting loanword adaptations: The
role of Perception // Proceedings of the 15th International Congress of Phonetic
Sciences 2003, 367-370.
• Winter-Froemel E. (2008), Studying loanwords and loanword integration: Two
criteria of conformity // Newcastle Working Papers in Linguistics 14: 156–176.

Más contenido relacionado

La actualidad más candente

378 санькова анастасия евдокимова александра
378 санькова анастасия евдокимова александра378 санькова анастасия евдокимова александра
378 санькова анастасия евдокимова александраЕлена Ключева
 
Илья Ермолаев — Автоматизируйся или умри
Илья Ермолаев — Автоматизируйся или умриИлья Ермолаев — Автоматизируйся или умри
Илья Ермолаев — Автоматизируйся или умри404fest
 
Социальные сети
Социальные сетиСоциальные сети
Социальные сетиDmitry Kozlovtsev
 
Современное программное обеспечение в работе психолога
Современное программное обеспечение в работе психологаСовременное программное обеспечение в работе психолога
Современное программное обеспечение в работе психологаKyrylo Zakharov
 
Полезные программы и сервисы для психологов
Полезные программы и сервисы для психологовПолезные программы и сервисы для психологов
Полезные программы и сервисы для психологовIvan Degtyarenko
 
соц. сеть
соц. сетьсоц. сеть
соц. сетьGavrik411
 
главчева научн метрики_11_2014
главчева научн метрики_11_2014главчева научн метрики_11_2014
главчева научн метрики_11_2014Julia Glavcheva
 
Дарья_Бухтоярова
Дарья_БухтояроваДарья_Бухтоярова
Дарья_Бухтояроваpsyjournals_ru
 
NHibernate. Диагностирование и решение конфликтов одновременной записи данных
NHibernate. Диагностирование и решение конфликтов одновременной записи данныхNHibernate. Диагностирование и решение конфликтов одновременной записи данных
NHibernate. Диагностирование и решение конфликтов одновременной записи данныхAlexander Byndyu
 
Словари и справочники по русскому языку
Словари и справочники по русскому языкуСловари и справочники по русскому языку
Словари и справочники по русскому языкуCapable People
 
Презентация журнала
Презентация журналаПрезентация журнала
Презентация журналаGeorgy Atanasov
 

La actualidad más candente (15)

378 санькова анастасия евдокимова александра
378 санькова анастасия евдокимова александра378 санькова анастасия евдокимова александра
378 санькова анастасия евдокимова александра
 
Илья Ермолаев — Автоматизируйся или умри
Илья Ермолаев — Автоматизируйся или умриИлья Ермолаев — Автоматизируйся или умри
Илья Ермолаев — Автоматизируйся или умри
 
РОМИП
РОМИПРОМИП
РОМИП
 
Социальные сети
Социальные сетиСоциальные сети
Социальные сети
 
Современное программное обеспечение в работе психолога
Современное программное обеспечение в работе психологаСовременное программное обеспечение в работе психолога
Современное программное обеспечение в работе психолога
 
Полезные программы и сервисы для психологов
Полезные программы и сервисы для психологовПолезные программы и сервисы для психологов
Полезные программы и сервисы для психологов
 
Вебсерфер
ВебсерферВебсерфер
Вебсерфер
 
соц. сеть
соц. сетьсоц. сеть
соц. сеть
 
главчева научн метрики_11_2014
главчева научн метрики_11_2014главчева научн метрики_11_2014
главчева научн метрики_11_2014
 
Дарья_Бухтоярова
Дарья_БухтояроваДарья_Бухтоярова
Дарья_Бухтоярова
 
вконтакте
вконтактевконтакте
вконтакте
 
NHibernate. Диагностирование и решение конфликтов одновременной записи данных
NHibernate. Диагностирование и решение конфликтов одновременной записи данныхNHibernate. Диагностирование и решение конфликтов одновременной записи данных
NHibernate. Диагностирование и решение конфликтов одновременной записи данных
 
Словари и справочники по русскому языку
Словари и справочники по русскому языкуСловари и справочники по русскому языку
Словари и справочники по русскому языку
 
Facebook Post Analysis
Facebook Post AnalysisFacebook Post Analysis
Facebook Post Analysis
 
Презентация журнала
Презентация журналаПрезентация журнала
Презентация журнала
 

Destacado

Sentiment Index of the Russian Speaking Facebook
Sentiment Index of the Russian Speaking FacebookSentiment Index of the Russian Speaking Facebook
Sentiment Index of the Russian Speaking FacebookAlexander Panchenko
 
Detecting Gender by Full Name: Experiments with the Russian Language
Detecting Gender by Full Name:  Experiments with the Russian LanguageDetecting Gender by Full Name:  Experiments with the Russian Language
Detecting Gender by Full Name: Experiments with the Russian LanguageAlexander Panchenko
 
Dmitry Gubanov. An Approach to the Study of Formal and Informal Relations of ...
Dmitry Gubanov. An Approach to the Study of Formal and Informal Relations of ...Dmitry Gubanov. An Approach to the Study of Formal and Informal Relations of ...
Dmitry Gubanov. An Approach to the Study of Formal and Informal Relations of ...Alexander Panchenko
 
Similarity Measures for Semantic Relation Extraction
Similarity Measures for Semantic Relation ExtractionSimilarity Measures for Semantic Relation Extraction
Similarity Measures for Semantic Relation ExtractionAlexander Panchenko
 
Вычислительная лексическая семантика: метрики семантической близости и их при...
Вычислительная лексическая семантика: метрики семантической близости и их при...Вычислительная лексическая семантика: метрики семантической близости и их при...
Вычислительная лексическая семантика: метрики семантической близости и их при...Alexander Panchenko
 

Destacado (6)

Sentiment Index of the Russian Speaking Facebook
Sentiment Index of the Russian Speaking FacebookSentiment Index of the Russian Speaking Facebook
Sentiment Index of the Russian Speaking Facebook
 
Detecting Gender by Full Name: Experiments with the Russian Language
Detecting Gender by Full Name:  Experiments with the Russian LanguageDetecting Gender by Full Name:  Experiments with the Russian Language
Detecting Gender by Full Name: Experiments with the Russian Language
 
Dmitry Gubanov. An Approach to the Study of Formal and Informal Relations of ...
Dmitry Gubanov. An Approach to the Study of Formal and Informal Relations of ...Dmitry Gubanov. An Approach to the Study of Formal and Informal Relations of ...
Dmitry Gubanov. An Approach to the Study of Formal and Informal Relations of ...
 
Making Sense of Word Embeddings
Making Sense of Word EmbeddingsMaking Sense of Word Embeddings
Making Sense of Word Embeddings
 
Similarity Measures for Semantic Relation Extraction
Similarity Measures for Semantic Relation ExtractionSimilarity Measures for Semantic Relation Extraction
Similarity Measures for Semantic Relation Extraction
 
Вычислительная лексическая семантика: метрики семантической близости и их при...
Вычислительная лексическая семантика: метрики семантической близости и их при...Вычислительная лексическая семантика: метрики семантической близости и их при...
Вычислительная лексическая семантика: метрики семантической близости и их при...
 

Similar a Неологизмы в социальной сети Фейсбук

Актуальные проблемы орфографии и методики ее преподавания. Способы подачи ор...
Актуальные проблемы орфографии и методики ее преподавания. Способы подачи ор...Актуальные проблемы орфографии и методики ее преподавания. Способы подачи ор...
Актуальные проблемы орфографии и методики ее преподавания. Способы подачи ор...uchitelj
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...AINL Conferences
 
9 русск яз_быкова_давидюк_для рус_2011_рус
9 русск яз_быкова_давидюк_для рус_2011_рус9 русск яз_быкова_давидюк_для рус_2011_рус
9 русск яз_быкова_давидюк_для рус_2011_русAira_Roo
 
достижение результатов
достижение результатовдостижение результатов
достижение результатовolegkorobko
 
Презентация исследовательской работы Мухиной М.
Презентация исследовательской работы Мухиной М.Презентация исследовательской работы Мухиной М.
Презентация исследовательской работы Мухиной М.sviridovaea
 
Огрубление
ОгрублениеОгрубление
ОгрублениеPsariova
 
4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)Smolensk Computer Science Club
 
Моделирование и реализация мульти платформенных онлайн-курсов (часть 1) Диссе...
Моделирование и реализация мульти платформенных онлайн-курсов (часть 1) Диссе...Моделирование и реализация мульти платформенных онлайн-курсов (часть 1) Диссе...
Моделирование и реализация мульти платформенных онлайн-курсов (часть 1) Диссе...Andrey Kuznetsov
 
Как разговаривать на английском более естественно
Как разговаривать на английском более естественноКак разговаривать на английском более естественно
Как разговаривать на английском более естественноSkyeng
 
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10Сообщество eLearning PRO
 
болезни гипофиза
болезни гипофизаболезни гипофиза
болезни гипофизаoquzaman
 
01. русский язык 5 9 фкгос
01. русский язык 5 9 фкгос01. русский язык 5 9 фкгос
01. русский язык 5 9 фкгосrassyhaev
 
англицизмы в языке российских сми.
англицизмы в языке российских сми. англицизмы в языке российских сми.
англицизмы в языке российских сми. Schooloforenburgskoye
 
обзор учебных пособий и изданий издательства златоуст (1)
обзор учебных пособий и изданий издательства златоуст (1)обзор учебных пособий и изданий издательства златоуст (1)
обзор учебных пособий и изданий издательства златоуст (1)Daniela K
 
Обучение языкам онлайн
Обучение языкам онлайнОбучение языкам онлайн
Обучение языкам онлайнLinguaContact
 
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwYury Katkov
 

Similar a Неологизмы в социальной сети Фейсбук (20)

Актуальные проблемы орфографии и методики ее преподавания. Способы подачи ор...
Актуальные проблемы орфографии и методики ее преподавания. Способы подачи ор...Актуальные проблемы орфографии и методики ее преподавания. Способы подачи ор...
Актуальные проблемы орфографии и методики ее преподавания. Способы подачи ор...
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
 
Khomitsevich
Khomitsevich Khomitsevich
Khomitsevich
 
9 русск яз_быкова_давидюк_для рус_2011_рус
9 русск яз_быкова_давидюк_для рус_2011_рус9 русск яз_быкова_давидюк_для рус_2011_рус
9 русск яз_быкова_давидюк_для рус_2011_рус
 
достижение результатов
достижение результатовдостижение результатов
достижение результатов
 
Презентация исследовательской работы Мухиной М.
Презентация исследовательской работы Мухиной М.Презентация исследовательской работы Мухиной М.
Презентация исследовательской работы Мухиной М.
 
Огрубление
ОгрублениеОгрубление
Огрубление
 
4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)
 
Моделирование и реализация мульти платформенных онлайн-курсов (часть 1) Диссе...
Моделирование и реализация мульти платформенных онлайн-курсов (часть 1) Диссе...Моделирование и реализация мульти платформенных онлайн-курсов (часть 1) Диссе...
Моделирование и реализация мульти платформенных онлайн-курсов (часть 1) Диссе...
 
Как разговаривать на английском более естественно
Как разговаривать на английском более естественноКак разговаривать на английском более естественно
Как разговаривать на английском более естественно
 
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10
 
болезни гипофиза
болезни гипофизаболезни гипофиза
болезни гипофиза
 
нити
нитинити
нити
 
01. русский язык 5 9 фкгос
01. русский язык 5 9 фкгос01. русский язык 5 9 фкгос
01. русский язык 5 9 фкгос
 
англицизмы в языке российских сми.
англицизмы в языке российских сми. англицизмы в языке российских сми.
англицизмы в языке российских сми.
 
обзор учебных пособий и изданий издательства златоуст (1)
обзор учебных пособий и изданий издательства златоуст (1)обзор учебных пособий и изданий издательства златоуст (1)
обзор учебных пособий и изданий издательства златоуст (1)
 
Обучение языкам онлайн
Обучение языкам онлайнОбучение языкам онлайн
Обучение языкам онлайн
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
 
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSw
 

Más de Alexander Panchenko

Graph's not dead: from unsupervised induction of linguistic structures from t...
Graph's not dead: from unsupervised induction of linguistic structures from t...Graph's not dead: from unsupervised induction of linguistic structures from t...
Graph's not dead: from unsupervised induction of linguistic structures from t...Alexander Panchenko
 
Building a Web-Scale Dependency-Parsed Corpus from Common Crawl
Building a Web-Scale Dependency-Parsed Corpus from Common CrawlBuilding a Web-Scale Dependency-Parsed Corpus from Common Crawl
Building a Web-Scale Dependency-Parsed Corpus from Common CrawlAlexander Panchenko
 
Improving Hypernymy Extraction with Distributional Semantic Classes
Improving Hypernymy Extraction with Distributional Semantic ClassesImproving Hypernymy Extraction with Distributional Semantic Classes
Improving Hypernymy Extraction with Distributional Semantic ClassesAlexander Panchenko
 
Inducing Interpretable Word Senses for WSD and Enrichment of Lexical Resources
Inducing Interpretable Word Senses for WSD and Enrichment of Lexical ResourcesInducing Interpretable Word Senses for WSD and Enrichment of Lexical Resources
Inducing Interpretable Word Senses for WSD and Enrichment of Lexical ResourcesAlexander Panchenko
 
IIT-UHH at SemEval-2017 Task 3: Exploring Multiple Features for Community Que...
IIT-UHH at SemEval-2017 Task 3: Exploring Multiple Features for Community Que...IIT-UHH at SemEval-2017 Task 3: Exploring Multiple Features for Community Que...
IIT-UHH at SemEval-2017 Task 3: Exploring Multiple Features for Community Que...Alexander Panchenko
 
Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...
Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...
Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...Alexander Panchenko
 
The 6th Conference on Analysis of Images, Social Networks, and Texts (AIST 2...
The 6th Conference on Analysis of Images, Social Networks, and Texts  (AIST 2...The 6th Conference on Analysis of Images, Social Networks, and Texts  (AIST 2...
The 6th Conference on Analysis of Images, Social Networks, and Texts (AIST 2...Alexander Panchenko
 
Using Linked Disambiguated Distributional Networks for Word Sense Disambiguation
Using Linked Disambiguated Distributional Networks for Word Sense DisambiguationUsing Linked Disambiguated Distributional Networks for Word Sense Disambiguation
Using Linked Disambiguated Distributional Networks for Word Sense DisambiguationAlexander Panchenko
 
Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...
Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...
Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...Alexander Panchenko
 
Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...
Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...
Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...Alexander Panchenko
 
Getting started in Apache Spark and Flink (with Scala) - Part II
Getting started in Apache Spark and Flink (with Scala) - Part IIGetting started in Apache Spark and Flink (with Scala) - Part II
Getting started in Apache Spark and Flink (with Scala) - Part IIAlexander Panchenko
 
IIT-TUDA at SemEval-2016 Task 5: Beyond Sentiment Lexicon: Combining Domain ...
IIT-TUDA at SemEval-2016 Task 5: Beyond Sentiment Lexicon: Combining Domain ...IIT-TUDA at SemEval-2016 Task 5: Beyond Sentiment Lexicon: Combining Domain ...
IIT-TUDA at SemEval-2016 Task 5: Beyond Sentiment Lexicon: Combining Domain ...Alexander Panchenko
 
Text Analysis of Social Networks: Working with FB and VK Data
Text Analysis of Social Networks: Working with FB and VK DataText Analysis of Social Networks: Working with FB and VK Data
Text Analysis of Social Networks: Working with FB and VK DataAlexander Panchenko
 
Semantic Similarity Measures for Semantic Relation Extraction
Semantic Similarity Measures for Semantic Relation ExtractionSemantic Similarity Measures for Semantic Relation Extraction
Semantic Similarity Measures for Semantic Relation ExtractionAlexander Panchenko
 

Más de Alexander Panchenko (15)

Graph's not dead: from unsupervised induction of linguistic structures from t...
Graph's not dead: from unsupervised induction of linguistic structures from t...Graph's not dead: from unsupervised induction of linguistic structures from t...
Graph's not dead: from unsupervised induction of linguistic structures from t...
 
Building a Web-Scale Dependency-Parsed Corpus from Common Crawl
Building a Web-Scale Dependency-Parsed Corpus from Common CrawlBuilding a Web-Scale Dependency-Parsed Corpus from Common Crawl
Building a Web-Scale Dependency-Parsed Corpus from Common Crawl
 
Improving Hypernymy Extraction with Distributional Semantic Classes
Improving Hypernymy Extraction with Distributional Semantic ClassesImproving Hypernymy Extraction with Distributional Semantic Classes
Improving Hypernymy Extraction with Distributional Semantic Classes
 
Inducing Interpretable Word Senses for WSD and Enrichment of Lexical Resources
Inducing Interpretable Word Senses for WSD and Enrichment of Lexical ResourcesInducing Interpretable Word Senses for WSD and Enrichment of Lexical Resources
Inducing Interpretable Word Senses for WSD and Enrichment of Lexical Resources
 
IIT-UHH at SemEval-2017 Task 3: Exploring Multiple Features for Community Que...
IIT-UHH at SemEval-2017 Task 3: Exploring Multiple Features for Community Que...IIT-UHH at SemEval-2017 Task 3: Exploring Multiple Features for Community Que...
IIT-UHH at SemEval-2017 Task 3: Exploring Multiple Features for Community Que...
 
Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...
Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...
Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...
 
The 6th Conference on Analysis of Images, Social Networks, and Texts (AIST 2...
The 6th Conference on Analysis of Images, Social Networks, and Texts  (AIST 2...The 6th Conference on Analysis of Images, Social Networks, and Texts  (AIST 2...
The 6th Conference on Analysis of Images, Social Networks, and Texts (AIST 2...
 
Using Linked Disambiguated Distributional Networks for Word Sense Disambiguation
Using Linked Disambiguated Distributional Networks for Word Sense DisambiguationUsing Linked Disambiguated Distributional Networks for Word Sense Disambiguation
Using Linked Disambiguated Distributional Networks for Word Sense Disambiguation
 
Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...
Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...
Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...
 
Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...
Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...
Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...
 
Getting started in Apache Spark and Flink (with Scala) - Part II
Getting started in Apache Spark and Flink (with Scala) - Part IIGetting started in Apache Spark and Flink (with Scala) - Part II
Getting started in Apache Spark and Flink (with Scala) - Part II
 
IIT-TUDA at SemEval-2016 Task 5: Beyond Sentiment Lexicon: Combining Domain ...
IIT-TUDA at SemEval-2016 Task 5: Beyond Sentiment Lexicon: Combining Domain ...IIT-TUDA at SemEval-2016 Task 5: Beyond Sentiment Lexicon: Combining Domain ...
IIT-TUDA at SemEval-2016 Task 5: Beyond Sentiment Lexicon: Combining Domain ...
 
Text Analysis of Social Networks: Working with FB and VK Data
Text Analysis of Social Networks: Working with FB and VK DataText Analysis of Social Networks: Working with FB and VK Data
Text Analysis of Social Networks: Working with FB and VK Data
 
Document
DocumentDocument
Document
 
Semantic Similarity Measures for Semantic Relation Extraction
Semantic Similarity Measures for Semantic Relation ExtractionSemantic Similarity Measures for Semantic Relation Extraction
Semantic Similarity Measures for Semantic Relation Extraction
 

Неологизмы в социальной сети Фейсбук

  • 1. Неологизмы в социальной сети Фейсбук Муравьев Н.А., Панченко А.И., Объедков С.А. nikita.muraviev@gmail.com Лаборатория цифрового общества, Москва
  • 2. Лаборатория цифрового общества • Маркетинговые, социальные, лингвистические исследования социальных сетей • Сбор, обработка и анализ больших массивов данных • Профилирование рекламы в соцсетях • Разработка интернет-приложений нового поколения
  • 3. Актуальность исследований заимствований и неологизмов • Состояние вопроса • Широкий круг теоретических и сравнительных исследований по заимствованиям и неологизмам • Haugen 1950, «The analysis of linguistic borrowing» • Capuz 1997, Winter-Froemel 2008, Peperkamp&Dupoux 2003, LaCharité&Paradis 2005 и многие другие • Конкретно языковые исследования, русский язык • Крысин 1968 "Иноязычные слова в современном русском языке" • Брейтер 1997, Дьяков 2003, Маринова 2013
  • 4. Заимствования и неологизмы в соцсетях • Специфичность языка интернета • Интернет-дискурс как особый промежуточный модус между устным и письменным • Особый пласт интернет-лексики (трекер, паблик, репост) • Высокая интенсивность изменений в лексике и грамматике языка • Значительное влияние английского языка • Специфика коммуникации в социальной сети – посты, комментарии, лайки и т.д.
  • 5. Заимствования и неологизмы в соцсетях • Задачи нашего исследования • Создание исследовательской базы – корпуса и словаря на основе постов в соц. сетях • Фиксирование текущего состояния языка соц. сетей для отслеживания изменений • Получение количественных данных • Вынесение предварительных суждений о текущем состоянии языка соц. сетей и языка вообще
  • 6. Сбор и обработка и анализ материала • Источник: русскоязычный публичный сегмент социальной сети, сообщения пользователей с «открытым» профилем https://developers.facebook.com/tools/explorer • Метод извлечения данных: использование программного интерфейса (API) Фейсбука • Первый этап: сбор корпуса анонимизированных постов и комментариев Фейсбука • Второй этап: посторение словаря на основе корпуса полуавтоматическим способом • Третий этап: лингвистический анализ данных
  • 7. Первый этап: сбор корпуса • Всего 573 миллионов анонимизированных постов и сообщений 3,2 млн. пользователей социальной сети • Только тексты на русском языке • Язык каждого из входных текстов был определён автоматически при помощи модуля langid.py [Lui & Baldwin 2012]. • Посты за период с 2006 по 2013 год. • Первый пост датируется 5 августа 2006 года, последний – 13 ноября 2013 года. • Подавляющее большинство постов приходится на период с 2011 по 2013 год.
  • 8. Статистика корпуса Параметр Значение Количество анонимизированных пользователей 3,190,813 Язык Русский Количество постов 426,089,762 Количество комментариев 147,140,265 Количество текстов (посты и комментарии) 573,230,027 Количество словоформ в постах 20,775,837,467 Количество словоформ в комментариях 2,759,777,659 Количество словоформ (посты и комментарии) 23,535,615,126 Средняя длина поста, словоформ 49 Средняя длина комментария, словоформ 19
  • 9. Второй этап: построение словаря • Морфологическая обработка данных • Токенизация и лемматизиация при помощи морфологического анализатора, основанного на словаре АОТ на базе словаря А.А.Зализняка [Зализняк 1977]. • Мы использовали собственную MapReduce реализацию модуля построения частотного словаря, основанную на модуле морфологического анализа RussianMorphology • Аннотация при помощи морфологического анализатора PyMorphy • Каждой лемме была присвоена часть речи
  • 10. Второй этап: построение словаря • Автоматическая фильтрация • Для каждой леммы было указано, входит ли она в словарь OpenCorpora (основан на словаре АОТ, содержит информацию о 388,790 леммах и 5,094,925 словоформах). • Отсев имеющихся в этом словаре единиц • НО: Произошел отсев новых слов, омонимичных существующим словам русского языка (пример: слово «пост»)
  • 11. Второй этап: построение словаря • Экспертное удаление «шума» • Ручная фильтрация 10,000 наиболее частотных слов. • Отсев разнообразного «шума»: нерусские слова, неверно лемматизированные слова и другие артефакты автоматической обработки (ть, нибыть, гый, санкт, що, ул, пр, нью, грн, ца, рожение, т.д, від, україни, вебинара). • Отбор из полученного списка 624 наиболее частотных несловарных слов
  • 12. Второй этап: построение словаря • Экспертное удаление нерелевантных единиц • В списке из 624 выявлено большое количество несловарных слов, которые не относятся к неологизмам: • Имена собственные • «Сниженная» лексика • Слова вроде «авиаперелет», «переориентироваться» или «однодневный», которые не содержатся в OpenCorpora, но есть в других словарях. • Дополнительная ручная фильтрация списка по данным Яндекс.Словари и НКРЯ с 2000 года (поиск по всему корпусу)
  • 13. Второй этап: построение словаря • Итог – список из 168 популярных неологизмов, извлеченных из корпуса текстов социальной сети. • 10 наиболее частотных лексем: вконтакт, твиттер, перепост, скайп, фейсбук, плэйкаст, демотиватор, плейлист, личка, перепостить
  • 14. Третий этап: лингвистический анализ материала • Краткая этимологическая, морфологическая, синтаксическая и семантическая характеристика слов • Классификация по 4 основаниям • Тип (источник) заимствования • Часть речи • Тип и модель деривации • Тематика
  • 15. Тип заимствования • Исконные: печенька, улыбизм, приколист и др. • Слова с иноязычными корнями: мульт, видеорепортаж, евроинтеграция • Англицизмы: фолловер, битрейт, флешмоб и др. • Галлицизмы: декупаж • Смешанные слова: перепост, имхонуть, реферальный
  • 16. Тип заимствования (кол-во слов из 168, %) 0 10 20 30 40 50 60 70 80 90 100 Англицизмы 54,8 % Смешанные 20,8 % Исконные 32% С инояз. корнями 4,8 % Галлицизмы 0,6 %
  • 17. Тематика • Интернет: оффлайн, браузерный, мем • Оценка: суперский, треш/трэш, жжот • Маркетинг: реферал, продакшн, инфопродукт • Мультимедиа: фотопроект, плэйкаст, гифка • Техника: айпад, ноут, флешка • Культура: флешмоб/флэшмоб, демотиватор
  • 18. Тематика (кол-во слов из 168, %) 0 5 10 15 20 25 30 35 40 Интернет 20,8 % Оценка 14,9 % Маркетинг 10,7 % Мультимедиа 8,9 % Техника 8,4 % Культура 3,6 %
  • 19. Тематика и этимология • Поле «интернет» представлено практически исключительно англицизмами и образованными от них словами • Большинство слов полей «маркетинг» и «техника» – тоже англицизмы • 16 из 25 слов поля «оценка» состоят из исконно русских корней (= 0,5 от общего числа исконных) • Поле «мультимедиа» состоит в основном из слов с иноязычнми корнями и смешанных слов (обычно композиты от фото-, видео-, аудио-, теле-)
  • 20. Часть речи • Традиционные классы (N, V, Adj, Adv, Interj) • Дополнительный класс (Nmod): • брэйн-система, лайф-коуч, трэш-комедия, байк-центр • Довольно распространенный в нашем материале (15 слов из 168) • Промежуточный класс между сущ. и прил. • Морфологически не изменяемые • Модифицируют существительные • Некоторые не имеют самостоятельного употребления в позиции существительного (этот трэш/*этот брейн/*этот лайф)
  • 21. Часть речи • Всего из 168 слов (а точно ли не 165?): • Существительные (N): 123 (73,2 %) • Именные модификаторы (Nmod): 15 (8,9 %) • Глаголы (V): 15 (8,9 %) • Прилагательные (Adj): 8 (4,8 %) • Наречия (Adv): 3 (1,8 %) • Междометия (Interj): 4 (2,4 %)
  • 22. Часть речи (кол-во слов из 168, %) 0 20 40 60 80 100 120 140 Сущ. 73,2 % Им. мод. 8,9 % Глаг. 8,9 % Прил. 4,8 % Нар. 1,8 % Межд. 2,4 %
  • 23. Тип и модель деривации • Традиционное деление на префиксальный, суффиксальный, префиксально-суффиксальный и композитный способ словообразования • Модели словообразования, разнообразие аффиксальных средств • Cуффикс, ST-к: флешка, гифка, личка • Префикс, пере-ST: перепост • Префикс+суффикс, за-ST-и: забанить, запостить • Словосложение, ST-ST: фотоподборка, госуслуга
  • 24. Типы деривации (кол-во слов из 168, %) 0 20 40 60 80 100 120 Непроизв. 59,8 % Суффикс 19,6 % Композиты 11,9 % Префикс 4,2 % Преф+суфф 4,2 %
  • 25. Модели деривации (кол-во слов из 168, %) 0 5 10 15 20 25 ST-(о)-ST 12,5 % ST-к 3,6 % ST-н 3,6 % ST-и 1,8 % за-ST-и 1,8 %
  • 26. Тип и модель деривации • Консерватизм в деривационных моделях • Единственная инновация – модель ST-ч • Предположительно, выглядит как V (inf) + j • В нашем материале только одно слово ржач • Известно также о существовании некоторых других: срач, махач
  • 27. Некоторые итоги и обобщения • Опыт построения корпуса и словаря • База для дальнейших исследований • Теоретические наблюдения касательно современного состояния русского языка в области лексики • Значительное влияние английского языка • Семантические поля с англоязычным vs исконным наполнением • Консерватизм в грамматических свойствах и деривационных моделях
  • 28. Дальнейшие направления исследований • Корпусные исследования языка соцсетей • Временная динамика языковых изменений • Социология и социолингвистика пользователей • Взаимосвязь языковых изменений и событий реального мира • Автоматическая обработка новых, некодифицированных лексических единиц • Сравнительный анализ данных Фейсбука и В контакте
  • 30. Литература • Брейтер М. А. (1997), Англицизмы в русском языке: история и перспективы: Пособие для иностранных студентов-русистов. // Владивосток, Диалог-МГУ. • Дьяков А. И. (2003), Причины интенсивного заимствования англицизмов в современном русском языке. // Язык и культура. - Новосибирск. - С. 35-43 • Зализняк, А. А. (1977). Грамматический словарь русского языка: словоизменение: около 100 000 слов. // Изд-во" Русский язык". • Крысин Л.П. (1968) Иноязычные слова в современном русском языке - М.: Наука • Маринова. Е.В. (2013) Иноязычная лексика современного русского языка: учеб. пособие, 2-е изд., М. : ФЛИНТА • Capuz Juan Gómez. (1997), Towards a Typological Classification of Linguistic Borrowing (Illustrated with Anglicisms in Romance Languages) // Revista Alicantina de Estudios Ingleses 10: 81-94
  • 31. Литература • Haugen E. (1950), The analysis of linguistic borrowing. // Language: 210-231 • LaCharité, D. & Paradis, C. (2005). Category Preservation and Proximity versus Phonetic Approximation in Loanword Adaptation. // Linguistic Inquiry 36/2, 223- 258. • Lui M. and Baldwin T. (2012). langid. py: An off-the-shelf language identification tool. // In Proceedings of the ACL 2012 System Demonstrations, pages 25–30. Association for Computational Linguistics. • Peperkamp, S. & Dupoux, E. (2003). Reinterpreting loanword adaptations: The role of Perception // Proceedings of the 15th International Congress of Phonetic Sciences 2003, 367-370. • Winter-Froemel E. (2008), Studying loanwords and loanword integration: Two criteria of conformity // Newcastle Working Papers in Linguistics 14: 156–176.