Анализатор постов в ЖЖ
May. 14th, 2019 01:04 pmВдохновившись этим примером, я тоже решила запилить что-нибудь для ЖЖ и в итоге написала приложение для анализа постов. Сейчас оно умеет определять языковое разнообразие (насколько разнообразными словами пользуется юзер), среднюю длину поста и самые частые слова. Может, потом добавлю ещё пару функций (а может и нет) :)

Пока писала и тестировала, обнаружила несколько закономерностей (хотя и меньше, чем ожидала).
Во-первых, у хорошего блога совсем не обязательно высокое разнообразие. У нескольких моих любимых блогеров, которых я считаю одними из самых интересных в ЖЖ, показатель разнообразия довольно средний. Я-то думала, чем круче пишет автор, тем разнообразие будет выше! Но это оказалось и близко не так. Высокие показатели разнообразия (24% и выше) часто встречаются у тех, кто пишет о новостях и всяких событиях — это и понятно, ведь события каждый день разные, поэтому в таких блогах встречается очень много разных слов. А вот у тех, кто пишет на какую-то узкоспециализированную тему (техника, медицина, садоводство), показатель разнообразия, наоборот, чаще низкий.
Сравнивать показатели довольно интересно, я для этого специально прикрутила графики с образцами нескольких топ-блогеров. А особенно интересно (ну мне, по крайней мере) смотреть на самые частые слова.
Но есть и довольно много ограничений, и о них ниже.
Приложение сейчас работает только с русскоязычными блогами. Ни английский, ни украинский язык оно не поддерживает, и результаты для блогов на любом языке, кроме русского, будут неправильными.
Ошибки и манера намеренно коверкать слова, к сожалению, повышают разнообразие. Мой алгоритм пока не умеет исправлять ошибки, и неправильно написанное слово считается уникальным. Так что, если условный юзер vasiliy1488 имеет запас слов Эллочки Людоедки, но при этом пишет “деффчонки” и “нихачу”, то показатель разнообразия его блога вполне может оказаться высоким, увы. (Только что придумала этого Василия для примера, но сейчас залезла на всякий случай проверить, а нет ли такого пользователя в ЖЖ на самом деле. Вы не поверите: такой пользователь есть! Точнее, был, он удалил свой журнал. Василий, если вы вдруг это читаете, простите, я не специально!).
ЖЖ даёт доступ только к 25-ти последним постам пользователя, так что выборка, к сожалению, неполная. И чем более длинные у вас посты, тем точнее результат. Если вы пишете в ЖЖ в формате Твиттера или часто постите одни картинки без текста, результат будет неточным.
Встречаются забавные артефакты! Например, тестируя приложение, я наткнулась на блогера, у которого в списке самых распространённых слов было загадочное “ГАЙДАТЬ”. Задумчиво почесав репу и пошевелив губами, я открыла его блог и сразу всё поняла: чувак пишет о кино и в последнее время часто упоминает знаменитого режиссёра Леонида Гайдая! Приложение, встретив незнакомое слово “Гайдай”, определило его как глагол)) Таким же образом получились очаровательные глаголы “ниховать” и “наховать”. Догадаетесь, от каких слов они образовались? :)
В остальном всё вполне предсказуемо. У Тёмы Лебедева в частых словах “пиздец”, “бесить” и “хуйня”. У shakko_kitsune, которая, как известно, пишет об искусстве, — “портрет”, “картина”, “статуя” и тому подобное. У Эволюции — сплошные “короны”, “щипцы” и прочие её словечки. Но нужно помнить, что ЖЖ отдаёт только последние 25 постов, так что эти слова следует воспринимать не как абсолют, а скорее “о чём этот блогер пишет в последнее время”.
Благодарю за помощь советами и бета-тестированием
mozgosteb,
bearinbloodbath и
rheo_tu.
no subject
Date: 2019-05-14 10:16 am (UTC)no subject
Date: 2019-05-14 10:17 am (UTC)Интересно, забанят или нет(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2019-05-14 11:35 am (UTC)no subject
Date: 2019-05-14 11:39 am (UTC)no subject
Date: 2019-05-14 11:39 am (UTC)А считаются только открытые посты?
no subject
Date: 2019-05-14 11:40 am (UTC)(no subject)
From:no subject
Date: 2019-05-14 11:57 am (UTC)no subject
Date: 2019-05-14 12:03 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2019-05-14 12:13 pm (UTC)Средняя длина поста: 67 слов
Часто встречающиеся слова:
ПОКА
СЕЙЧАС
ОЧЕРЕДЬ
СОН
УЗНАТЬ
ДРУГ
ДВА
ПОСТ
ЗНАТЬ
СМОТРЕТЬ
Теперь надо понять, что это значит! ) Как это меня характеризует. Понимаю, что мой последний пост здорово подпортил среднее арифметическое. )
no subject
Date: 2019-05-14 12:17 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2019-05-14 12:30 pm (UTC)no subject
Date: 2019-05-14 12:38 pm (UTC)no subject
Date: 2019-05-14 12:39 pm (UTC)Средняя длина поста: 184 слова
Часто встречающиеся слова:
СОДЕРЖАТЬ
ПОСМОТРЕТЬ
КОММЕНТАРИЙ
ОБСУЖДЕНИЕ
НУЖНЫЙ
ЖИЗНЬ
ЖЕНЩИНА
ДРУГОЙ
РАБОТА
СЛУЧАЙ
no subject
Date: 2019-05-14 12:41 pm (UTC)no subject
Date: 2019-05-14 12:54 pm (UTC)no subject
Date: 2019-05-14 12:56 pm (UTC)no subject
Date: 2019-05-14 01:13 pm (UTC)интересно, что у него под капотом ))
а долго делала?
no subject
Date: 2019-05-14 01:19 pm (UTC)Само приложение сделала довольно быстро, за несколько вечеров. Больше времени у меня заняла математика: нужно было предсказывать показатель разнообразия для юзеров с короткими постами. В итоге рассчитывала с помощью формулы логарифмической регрессии.
no subject
Date: 2019-05-14 01:36 pm (UTC)no subject
Date: 2019-05-14 01:37 pm (UTC)no subject
Date: 2019-05-14 02:35 pm (UTC)Средняя длина поста: 518 слов
Часто встречающиеся слова:
РОМАН
КНИГА
АВТОР
МИР
ПЕРВЫЙ
ВОЙНА
НОВЫЙ
ОДНАКО
ИСТОРИЯ
ФАНТАСТИКА
Такое ощущение, что книжная тематика дает фору по словарному разнообразию:)
no subject
Date: 2019-05-14 02:37 pm (UTC)(no subject)
From:(no subject)
From:no subject
Date: 2019-05-14 04:05 pm (UTC)no subject
Date: 2019-05-14 04:08 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2019-05-14 05:08 pm (UTC)Средняя длина поста: 610 слов
Часто встречающиеся слова:
ВРАЧ
РЕБЕНОК
БОЛЬНОЙ
КЛЕТКА
ТРУД
ДОЛЖНЫЙ
ЖИЗНЬ
СОВРЕМЕННЫЙ
ВИД
ЗНАТЬ
Довольно странно. У меня и читать-то нечего, а тут вдруг разнообразие 28%
no subject
Date: 2019-05-14 05:11 pm (UTC)"Клетка" как-то неожиданно смотрится в списке :) Хотя, может, это грудная клетка?
(no subject)
From:no subject
Date: 2019-05-15 04:32 am (UTC)НИКТО
ИГРА
ИДТИ
ФИЛЬМ
НУЖНЫЙ
ДВА
ПОСЛЕДНИЙ
СТОИТЬ
ГОВОРИТЬ
ДУМАТЬ
"никто", "нужный", "последний" - да, это точно обо мне.
Жаль, не застал фазы бета-тестирования.
no subject
Date: 2019-05-15 11:54 am (UTC)(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2019-05-15 06:23 am (UTC)У нас так https://masterspammer.livejournal.com/356221.html девочка Цвета родилась :-)
no subject
Date: 2019-05-15 11:52 am (UTC)(no subject)
From:(no subject)
From:no subject
Date: 2019-05-15 08:35 am (UTC)no subject
Date: 2019-05-15 11:55 am (UTC)no subject
Date: 2019-05-15 09:00 am (UTC)no subject
Date: 2019-05-15 09:41 am (UTC)no subject
Date: 2019-05-15 11:59 am (UTC)Про Потёмкина и "ховать" не знала! Спасибо))
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2019-05-15 09:58 am (UTC)no subject
Date: 2019-05-15 12:00 pm (UTC)no subject
Date: 2019-05-15 12:00 pm (UTC)no subject
Date: 2019-05-15 11:33 am (UTC)В качестве новой функции можно было бы добавить еще вывод, например, десяти блогов, наиболее похожих на анализируемый ЖЖ.
no subject
Date: 2019-05-15 12:08 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2019-05-15 12:13 pm (UTC)no subject
Date: 2019-05-15 12:16 pm (UTC)(no subject)
From:no subject
Date: 2019-05-15 01:19 pm (UTC)Разнообразие текста: 26.5%
Средняя длина поста: 359 слов
Часто встречающиеся слова:
СПЕКТАКЛЬ
ТЕАТР
СЦЕНА
РОЛЯ
АКТЕР
ПЬЕСА
ТЕАТРАЛЬНЫЙ
ГАМЛЕТ
ИГРАТЬ
ДВА
no subject
Date: 2019-05-15 01:27 pm (UTC)no subject
Date: 2019-05-15 01:22 pm (UTC)no subject
Date: 2019-05-15 01:29 pm (UTC)(no subject)
From:no subject
Date: 2019-05-15 04:43 pm (UTC)Средняя длина поста: 496 слов
Но у вас там ошибка какая-то с грамматикой. Часто встречающееся слово - ЙЕСТИ. Может быть, ЙЕТИ? :-) Про йети у меня действительно часто встречается.
no subject
Date: 2019-05-15 04:51 pm (UTC)А про ЙЕСТИ — сама недоумеваю. Но скорее всего, вы правы, это "йети". Анализатор использует специальную библиотеку для морфологического анализа, и некоторые не очень распространённые слова пытается "угадать". Слово "йети" библиотеке незнакомо, поэтому, наверное. она попыталась так необычно его преобразовать. Это как с Гайдаем :)