sel_kie: (Default)
[personal profile] sel_kie

Вдохновившись этим примером, я тоже решила запилить что-нибудь для ЖЖ и в итоге написала приложение для анализа постов. Сейчас оно умеет определять языковое разнообразие (насколько разнообразными словами пользуется юзер), среднюю длину поста и самые частые слова. Может, потом добавлю ещё пару функций (а может и нет) :)


Вот что у меня получилось










Пока писала и тестировала, обнаружила несколько закономерностей (хотя и меньше, чем ожидала).


Во-первых, у хорошего блога совсем не обязательно высокое разнообразие. У нескольких моих любимых блогеров, которых я считаю одними из самых интересных в ЖЖ, показатель разнообразия довольно средний. Я-то думала, чем круче пишет автор, тем разнообразие будет выше! Но это оказалось и близко не так. Высокие показатели разнообразия (24% и выше) часто встречаются у тех, кто пишет о новостях и всяких событиях — это и понятно, ведь события каждый день разные, поэтому в таких блогах встречается очень много разных слов. А вот у тех, кто пишет на какую-то узкоспециализированную тему (техника, медицина, садоводство), показатель разнообразия, наоборот, чаще низкий.



Сравнивать показатели довольно интересно, я для этого специально прикрутила графики с образцами нескольких топ-блогеров. А особенно интересно (ну мне, по крайней мере) смотреть на самые частые слова.
Но есть и довольно много ограничений, и о них ниже.


Приложение сейчас работает только с русскоязычными блогами. Ни английский, ни украинский язык оно не поддерживает, и результаты для блогов на любом языке, кроме русского, будут неправильными.


Ошибки и манера намеренно коверкать слова, к сожалению, повышают разнообразие. Мой алгоритм пока не умеет исправлять ошибки, и неправильно написанное слово считается уникальным. Так что, если условный юзер vasiliy1488 имеет запас слов Эллочки Людоедки, но при этом пишет “деффчонки” и “нихачу”, то показатель разнообразия его блога вполне может оказаться высоким, увы. (Только что придумала этого Василия для примера, но сейчас залезла на всякий случай проверить, а нет ли такого пользователя в ЖЖ на самом деле. Вы не поверите: такой пользователь есть! Точнее, был, он удалил свой журнал. Василий, если вы вдруг это читаете, простите, я не специально!).


ЖЖ даёт доступ только к 25-ти последним постам пользователя, так что выборка, к сожалению, неполная. И чем более длинные у вас посты, тем точнее результат. Если вы пишете в ЖЖ в формате Твиттера или часто постите одни картинки без текста, результат будет неточным.


Встречаются забавные артефакты! Например, тестируя приложение, я наткнулась на блогера, у которого в списке самых распространённых слов было загадочное “ГАЙДАТЬ”. Задумчиво почесав репу и пошевелив губами, я открыла его блог и сразу всё поняла: чувак пишет о кино и в последнее время часто упоминает знаменитого режиссёра Леонида Гайдая! Приложение, встретив незнакомое слово “Гайдай”, определило его как глагол)) Таким же образом получились очаровательные глаголы “ниховать” и “наховать”. Догадаетесь, от каких слов они образовались? :)


В остальном всё вполне предсказуемо. У Тёмы Лебедева в частых словах “пиздец”, “бесить” и “хуйня”. У shakko_kitsune, которая, как известно, пишет об искусстве, — “портрет”, “картина”, “статуя” и тому подобное. У Эволюции — сплошные “короны”, “щипцы” и прочие её словечки. Но нужно помнить, что ЖЖ отдаёт только последние 25 постов, так что эти слова следует воспринимать не как абсолют, а скорее “о чём этот блогер пишет в последнее время”.


Благодарю за помощь советами и бета-тестированием [livejournal.com profile] mozgosteb, [livejournal.com profile] bearinbloodbath и [livejournal.com profile] rheo_tu

Page 1 of 2 << [1] [2] >>

Date: 2019-05-14 10:16 am (UTC)
From: [identity profile] mozgosteb.livejournal.com
С релизом!

Date: 2019-05-14 10:17 am (UTC)
From: [identity profile] sel-kie.livejournal.com
Спасибо! Интересно, забанят или нет

(no subject)

From: [identity profile] mozgosteb.livejournal.com - Date: 2019-05-14 10:18 am (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-14 10:20 am (UTC) - Expand

(no subject)

From: [identity profile] mozgosteb.livejournal.com - Date: 2019-05-14 10:26 am (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-14 10:30 am (UTC) - Expand

(no subject)

From: [identity profile] mozgosteb.livejournal.com - Date: 2019-05-14 10:31 am (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-14 10:38 am (UTC) - Expand

(no subject)

From: [identity profile] mozgosteb.livejournal.com - Date: 2019-05-14 11:16 am (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-14 11:18 am (UTC) - Expand

(no subject)

From: [identity profile] mozgosteb.livejournal.com - Date: 2019-05-14 11:21 am (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-14 11:26 am (UTC) - Expand

(no subject)

From: [identity profile] mozgosteb.livejournal.com - Date: 2019-05-14 11:28 am (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-14 11:31 am (UTC) - Expand

(no subject)

From: [identity profile] mozgosteb.livejournal.com - Date: 2019-05-14 11:34 am (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-14 11:35 am (UTC) - Expand

(no subject)

From: [identity profile] mozgosteb.livejournal.com - Date: 2019-05-14 11:46 am (UTC) - Expand

Date: 2019-05-14 11:35 am (UTC)
From: [identity profile] livejournal.livejournal.com
Здравствуйте! Ваша запись попала в топ-25 популярных записей LiveJournal северного региона (http://www.livejournal.com/ratings/?rating=ru_north). Подробнее о рейтинге читайте в Справке (https://www.dreamwidth.org/support/faqbrowse?faqid=303).

Date: 2019-05-14 11:39 am (UTC)
From: [identity profile] sel-kie.livejournal.com
А если бы ЖЖ отдавал не 25 постов, а хотя бы 100, то результаты были бы куда точнее

Date: 2019-05-14 11:39 am (UTC)
From: [identity profile] chiffa-chi.livejournal.com

А считаются только открытые посты?

Date: 2019-05-14 11:40 am (UTC)
From: [identity profile] sel-kie.livejournal.com
Да, приложение видит только то, что видит незалогиненный пользователь

(no subject)

From: [identity profile] chiffa-chi.livejournal.com - Date: 2019-05-14 12:04 pm (UTC) - Expand

Date: 2019-05-14 11:57 am (UTC)
From: [identity profile] mozgosteb.livejournal.com
Вот интересное открытие: почти у всех, кого я читаю, есть слово "знать"

Date: 2019-05-14 12:03 pm (UTC)
From: [identity profile] sel-kie.livejournal.com
Думаешь, стоит выкинуть это слово как высокочастотное? Я составила список слов, которые не выводятся, потому что встречаются у всех. Там, например, есть слово "человек" (иначе оно попало бы в топ-10 слов практически у каждого юзера), "хотеть", а также всякие служебные глаголы типа "быть".

(no subject)

From: [identity profile] mozgosteb.livejournal.com - Date: 2019-05-14 12:05 pm (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-14 12:09 pm (UTC) - Expand

(no subject)

From: [identity profile] mozgosteb.livejournal.com - Date: 2019-05-14 12:13 pm (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-14 12:14 pm (UTC) - Expand

(no subject)

From: [identity profile] mozgosteb.livejournal.com - Date: 2019-05-14 12:16 pm (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-14 12:18 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-14 12:22 pm (UTC) - Expand

(no subject)

From: [identity profile] k-medvezhonkina.livejournal.com - Date: 2019-05-14 12:09 pm (UTC) - Expand

(no subject)

From: [identity profile] mozgosteb.livejournal.com - Date: 2019-05-14 12:12 pm (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-14 12:15 pm (UTC) - Expand

(no subject)

From: [identity profile] k-medvezhonkina.livejournal.com - Date: 2019-05-14 05:07 pm (UTC) - Expand

Date: 2019-05-14 12:13 pm (UTC)
From: [identity profile] k-medvezhonkina.livejournal.com
Разнообразие текста: 16.4%

Средняя длина поста: 67 слов

Часто встречающиеся слова: 
ПОКА
СЕЙЧАС
ОЧЕРЕДЬ
СОН
УЗНАТЬ
ДРУГ
ДВА
ПОСТ
ЗНАТЬ
СМОТРЕТЬ


Теперь надо понять, что это значит! ) Как это меня характеризует. Понимаю, что мой последний пост здорово подпортил среднее арифметическое. )

Date: 2019-05-14 12:17 pm (UTC)
From: [identity profile] sel-kie.livejournal.com
Как минимум как любознательного человека :) Целых два слова об этом говорят: "знать" и "узнать" (интересно, кстати, почему алгоритм не свёл их в одно)

(no subject)

From: [identity profile] k-medvezhonkina.livejournal.com - Date: 2019-05-14 12:21 pm (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-14 12:40 pm (UTC) - Expand

(no subject)

From: [identity profile] k-medvezhonkina.livejournal.com - Date: 2019-05-14 05:08 pm (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-14 05:13 pm (UTC) - Expand

(no subject)

From: [identity profile] k-medvezhonkina.livejournal.com - Date: 2019-05-14 05:29 pm (UTC) - Expand

Date: 2019-05-14 12:30 pm (UTC)
From: [identity profile] zhzhitel.livejournal.com
У меня, как у многих, в конце постов есть «подвал», где перечислены соцсети и призывы подписаться на журнал. Эти слова повторяются в постах, поэтому на выходе: ДЗЕН, ССЫЛКА, ТВИТТЕР, ИНСТАГРАМ, ВКОНТАКТ, ПОДПИСЫВАТЬСЯ, ФЕЙСБУК

Date: 2019-05-14 12:38 pm (UTC)
From: [identity profile] sel-kie.livejournal.com
Да, надо подумать, как отсеивать такие "подвалы"... Возможно, стоит внести названия популярных соцсетей в список "стоп-слов"

Date: 2019-05-14 12:39 pm (UTC)
From: [identity profile] vopros-veka.livejournal.com
Разнообразие текста: 25.1%
Средняя длина поста: 184 слова
Часто встречающиеся слова:
СОДЕРЖАТЬ
ПОСМОТРЕТЬ
КОММЕНТАРИЙ
ОБСУЖДЕНИЕ
НУЖНЫЙ
ЖИЗНЬ
ЖЕНЩИНА
ДРУГОЙ
РАБОТА
СЛУЧАЙ

Date: 2019-05-14 12:41 pm (UTC)
From: [identity profile] sel-kie.livejournal.com
Похоже на правду?

Date: 2019-05-14 12:54 pm (UTC)
From: [identity profile] jack-bird.livejournal.com
Спасибо, любопытно. Боюсь, что счетчик учитывает опечатки: у меня разнообразие насчитал 28%, если это действительно выше среднего, вероятно из-за них.

Date: 2019-05-14 12:56 pm (UTC)
From: [identity profile] sel-kie.livejournal.com
Учитывает, ага. Думаю пока, как научить его"понимать" опечатки...

Date: 2019-05-14 01:13 pm (UTC)
From: [identity profile] iris-the-fox.livejournal.com
какой клевый инструментик )
интересно, что у него под капотом ))
а долго делала?

Date: 2019-05-14 01:19 pm (UTC)
From: [identity profile] sel-kie.livejournal.com
Под капотом — Node.js (проще и быстрее всего было сделать на ней).
Само приложение сделала довольно быстро, за несколько вечеров. Больше времени у меня заняла математика: нужно было предсказывать показатель разнообразия для юзеров с короткими постами. В итоге рассчитывала с помощью формулы логарифмической регрессии.

Date: 2019-05-14 01:36 pm (UTC)
From: [identity profile] livejournal.livejournal.com
Здравствуйте! Ваша запись попала в топ-25 популярных записей LiveJournal России (http://www.livejournal.com/ratings/?rating=ru)! Подробнее о рейтинге читайте в Справке (https://www.dreamwidth.org/support/faqbrowse?faqid=303).

Date: 2019-05-14 01:37 pm (UTC)

Date: 2019-05-14 02:35 pm (UTC)
From: [identity profile] green-bear-den.livejournal.com
Разнообразие текста: 34.3%
Средняя длина поста: 518 слов
Часто встречающиеся слова:
РОМАН
КНИГА
АВТОР
МИР
ПЕРВЫЙ
ВОЙНА
НОВЫЙ
ОДНАКО
ИСТОРИЯ
ФАНТАСТИКА

Такое ощущение, что книжная тематика дает фору по словарному разнообразию:)

Date: 2019-05-14 02:37 pm (UTC)
From: [identity profile] sel-kie.livejournal.com
Да, похоже на то. У вас пока рекорд :)

(no subject)

From: [identity profile] pechalka-jalka.livejournal.com - Date: 2019-05-15 09:18 am (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-15 12:06 pm (UTC) - Expand

Date: 2019-05-14 04:05 pm (UTC)
elshajkina: (Default)
From: [personal profile] elshajkina
Вспомнилась байка, как на заре подобных технологий решили проанализировать компьютерным способом собрание сочинений Пушкина и с удивлением обнаружили среди наиболее частых слова "мыть" и "какать".

Date: 2019-05-14 04:08 pm (UTC)
From: [identity profile] sel-kie.livejournal.com
Хорошо, что я заранее убираю из текстов все "мой", "моя", "мою", а также "какая", а то все бы эти слова у себя обнаружили))

(no subject)

From: [personal profile] elshajkina - Date: 2019-05-17 08:48 am (UTC) - Expand

(no subject)

From: [personal profile] petropavel - Date: 2019-05-16 06:18 am (UTC) - Expand

(no subject)

From: [personal profile] elshajkina - Date: 2019-05-17 08:39 am (UTC) - Expand

(no subject)

From: [personal profile] petropavel - Date: 2019-05-17 09:05 am (UTC) - Expand

Date: 2019-05-14 05:08 pm (UTC)
From: [identity profile] terapevt1967.livejournal.com
Разнообразие текста: 28.7%
Средняя длина поста: 610 слов
Часто встречающиеся слова:
ВРАЧ
РЕБЕНОК
БОЛЬНОЙ
КЛЕТКА
ТРУД
ДОЛЖНЫЙ
ЖИЗНЬ
СОВРЕМЕННЫЙ
ВИД
ЗНАТЬ

Довольно странно. У меня и читать-то нечего, а тут вдруг разнообразие 28%

Date: 2019-05-14 05:11 pm (UTC)
From: [identity profile] sel-kie.livejournal.com
Средняя длина поста 610 слов — ничего себе нечего читать!
"Клетка" как-то неожиданно смотрится в списке :) Хотя, может, это грудная клетка?

(no subject)

From: [identity profile] terapevt1967.livejournal.com - Date: 2019-05-14 05:29 pm (UTC) - Expand

Date: 2019-05-15 04:32 am (UTC)
From: [identity profile] rheo-tu.livejournal.com
Часто встречающиеся слова:
НИКТО
ИГРА
ИДТИ
ФИЛЬМ
НУЖНЫЙ
ДВА
ПОСЛЕДНИЙ
СТОИТЬ
ГОВОРИТЬ
ДУМАТЬ

"никто", "нужный", "последний" - да, это точно обо мне.
Жаль, не застал фазы бета-тестирования.

Date: 2019-05-15 11:54 am (UTC)
From: [identity profile] sel-kie.livejournal.com
А как же "игра", "стоить", "думать"? :) Это ведь тоже про тебя?

(no subject)

From: [identity profile] rheo-tu.livejournal.com - Date: 2019-05-15 03:51 pm (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-15 05:31 pm (UTC) - Expand

(no subject)

From: [identity profile] rheo-tu.livejournal.com - Date: 2019-05-15 07:45 pm (UTC) - Expand

Date: 2019-05-15 06:23 am (UTC)
From: [identity profile] masterspammer.livejournal.com
А "гайдать" это морфоанализатор породил? Кстати, какой?

У нас так https://masterspammer.livejournal.com/356221.html девочка Цвета родилась :-)

Date: 2019-05-15 11:52 am (UTC)
From: [identity profile] sel-kie.livejournal.com
Для морфологического анализа я пользуюсь библиотекой phpmorphy, адаптированной для Node.js. Пробовала несколько, эта оказалась оптимальной. Да, Гайдать — её работа :)

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-15 11:53 am (UTC) - Expand

(no subject)

From: [identity profile] masterspammer.livejournal.com - Date: 2019-05-15 01:55 pm (UTC) - Expand

Date: 2019-05-15 08:35 am (UTC)
From: [identity profile] birosss.livejournal.com
Здорово! Было интересно посмотреть.

Date: 2019-05-15 11:55 am (UTC)
From: [identity profile] sel-kie.livejournal.com
Рада быть полезной!

Date: 2019-05-15 09:00 am (UTC)
From: [identity profile] livejournal.livejournal.com
Ваша запись Анализатор постов в ЖЖ (https://sel-kie.livejournal.com/12935.html) в LiveJournal Media - Анализатор постов в ЖЖ (https://sel-kie.livejournal.com/12935.html?media)

Date: 2019-05-15 09:41 am (UTC)
From: [identity profile] marimbu.livejournal.com
Ай, спасибо, порадовали новыми глаголами! Не могу не вспомнить порожденные когда-то давно искусственным интеллектом "поредактор", "скомпилятор" и "я от нее галерею". Ну а байка про графа Потемкина, золотую табакерку и отглагольное существительное от слова "ховать" давно известна и очень похожа на правду - у него этих табакерок было как гуталина.

Date: 2019-05-15 11:59 am (UTC)
From: [identity profile] sel-kie.livejournal.com
Да уж, мы их породили, а они теперь нас радуют :)
Про Потёмкина и "ховать" не знала! Спасибо))

(no subject)

From: [personal profile] elshajkina - Date: 2019-05-17 08:56 am (UTC) - Expand

(no subject)

From: [identity profile] q3mi4.livejournal.com - Date: 2019-05-27 12:19 pm (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-27 12:20 pm (UTC) - Expand

(no subject)

From: [personal profile] elshajkina - Date: 2019-05-27 06:13 pm (UTC) - Expand

Date: 2019-05-15 09:58 am (UTC)
From: [identity profile] saintguy.livejournal.com
молодец. возьми с полки пирожок. из двух - средний

Date: 2019-05-15 12:00 pm (UTC)
From: [identity profile] sel-kie.livejournal.com
Взяла оба тогда
(deleted comment)

Date: 2019-05-15 12:00 pm (UTC)
From: [identity profile] sel-kie.livejournal.com
Рада, что вам нравится!

Date: 2019-05-15 11:33 am (UTC)
From: [identity profile] begleita.livejournal.com
Спасибо!

В качестве новой функции можно было бы добавить еще вывод, например, десяти блогов, наиболее похожих на анализируемый ЖЖ.

Date: 2019-05-15 12:08 pm (UTC)
From: [identity profile] sel-kie.livejournal.com
Я так и собиралась сделать, уже даже работаю над этим :) Только я думала выводить один какой-нибудь самый похожий блог из топа. Чтобы в скорости не терять. Мне и так кажется, что слишком медленно работает.

(no subject)

From: [identity profile] begleita.livejournal.com - Date: 2019-05-15 12:31 pm (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-15 12:33 pm (UTC) - Expand

(no subject)

From: [identity profile] green-bear-den.livejournal.com - Date: 2019-05-16 01:12 pm (UTC) - Expand

(no subject)

From: [identity profile] sel-kie.livejournal.com - Date: 2019-05-16 01:27 pm (UTC) - Expand

Date: 2019-05-15 12:13 pm (UTC)
From: [identity profile] psilogic.livejournal.com
Забавно, у меня самое часто встречающееся слово - "слово". Сначала было слово :)

Date: 2019-05-15 12:16 pm (UTC)
From: [identity profile] sel-kie.livejournal.com
И ещё интересно: из чисел у народа чаще всего встречается "один" и "два", а у вас — "третий". Почему бы это?

(no subject)

From: [identity profile] psilogic.livejournal.com - Date: 2019-05-15 01:05 pm (UTC) - Expand

Date: 2019-05-15 01:19 pm (UTC)
From: [identity profile] lev-semerkin.livejournal.com
спасибо, очень интересно было посмотреть на себя и открыть новое слово РОЛЯ (это пример в дополнение к ГАЙДАТЬ), пишу о театре и видимо так преобразовалось слово РОЛЬ

Разнообразие текста: 26.5%

Средняя длина поста: 359 слов

Часто встречающиеся слова:
СПЕКТАКЛЬ
ТЕАТР
СЦЕНА
РОЛЯ
АКТЕР
ПЬЕСА
ТЕАТРАЛЬНЫЙ
ГАМЛЕТ
ИГРАТЬ
ДВА

Date: 2019-05-15 01:27 pm (UTC)
From: [identity profile] sel-kie.livejournal.com
Ох уж этот анализатор, то и дело заставляет меня краснеть :)

Date: 2019-05-15 01:22 pm (UTC)
From: [identity profile] vls-777.livejournal.com
Вы бы лучше занялись те, что у вас получается

Date: 2019-05-15 01:29 pm (UTC)
From: [identity profile] sel-kie.livejournal.com
Как только найду хоть что-нибудь, что у меня получается, сразу же этим займусь

(no subject)

From: [identity profile] vls-777.livejournal.com - Date: 2019-05-15 01:36 pm (UTC) - Expand

Date: 2019-05-15 04:43 pm (UTC)
From: [identity profile] xraptor.livejournal.com
Разнообразие текста: 37.3%
Средняя длина поста: 496 слов
Но у вас там ошибка какая-то с грамматикой. Часто встречающееся слово - ЙЕСТИ. Может быть, ЙЕТИ? :-) Про йети у меня действительно часто встречается.
Edited Date: 2019-05-15 04:45 pm (UTC)

Date: 2019-05-15 04:51 pm (UTC)
From: [identity profile] sel-kie.livejournal.com
Похоже, у вас рекорд на данный момент по показателю разнообразия.
А про ЙЕСТИ — сама недоумеваю. Но скорее всего, вы правы, это "йети". Анализатор использует специальную библиотеку для морфологического анализа, и некоторые не очень распространённые слова пытается "угадать". Слово "йети" библиотеке незнакомо, поэтому, наверное. она попыталась так необычно его преобразовать. Это как с Гайдаем :)
Page 1 of 2 << [1] [2] >>
Page generated Jan. 14th, 2026 04:57 am
Powered by Dreamwidth Studios