Сайт фрилансера
Лихенко Владислава

Блог


Главная » 2011 » Январь » 17 » Семантический анализ текста: вода
13:20

Семантический анализ текста: вода


семантический анализ текстаЗдравствуйте, друзья!

Сегодня мы с Вами будем рассматривать показатель «вода» - один из критериев семантического анализа текста. Если Вы пишете тексты для сайтов, то наверняка не раз сталкивались в заказе с таким выражением: «Нужен текст без воды». Что же такое на самом деле текст без воды?

Ещё когда Вы учились в школе или в ВУЗе, то Вам приходилось писать сочинения, изложения, готовиться к ответам на экзамене. В некоторых случаях Вас чётко ограничивали, например, «сочинение надо написать на 10 страниц». Кто-то выезжал за счёт своего почерка, умудряясь умещать на одной строчке 2-3 слова, а кому-то приходилось «лить воду». То есть для увеличения объёма текста, Вам приходилось разбавлять его различными фразами, а то и целыми предложениями, которые, по сути, не меняют смысл текста в целом. Следовательно, вода в тексте – фразы и предложения, которые не несут смысловую нагрузку.

В современной языковой культуре вода зачастую используется как синоним пустословия. Отсюда выражение "лить воду". Связано с тем, что вода — самая дешевая из жидкостей. Торговцы используют ее, фальсифицируя состав вина, а ораторы зачастую заполняют водообразными словами свои речи.
Источник: Энциклопедия символов, знаков, эмблем. М., 1999.


Сегодня существует множество программ и онлайн-сервисов, с помощью которых можно провести семантический анализ текста. Этот анализ используется при подготовке сео-текстов для сайтов. Тем самым люди пытаются с помощью машин, математическими методами определить качество текста.



Изучая данный вопрос, я нашел в интернете определение: «Вода – это процентное соотношение стоп-слов ко всему объему текста». Хочу Вас уверить - это определение не имеет места. Почему?

Давайте воспользуемся семантическим анализом текстов от Адвего. Я написал два небольших предложения и произвел их анализ на этом сервисе.

Текст для анализа: «Сижу на работе. Готовлю отчет.»

Результаты анализа:





Как мы видим, определение провалилось с треском. Учитывая тот факт, что в данном тексте из 5 слов 2 являются стоп-словами, то вода должна была составить 40%, а анализ показал 0%.

Давайте попробуем добавить «воды».

Новый текст для анализа: «Сижу на работе, с чашечкой кофе. Готовлю отчёт по семантическому анализу текста.»

Результаты анализа:





Как видим, «вода» добавилась, но определение опять не сработало. Для текста из 12 слов, 4 из которых являются стоп-словами, согласно определения вода должна быть 33,33%. А результат теста 16,67%, что ровно в два раза ниже. Кстати, количество значимых слов, согласно результатам анализа тоже ровно 2.

Давайте возьмем более длинный текст. К примеру, я взял отрывок из произведения Л.Н. Толстого «Война и Мир». Это портрет Пьера.

«Пьер был неуклюж. Толстый, выше обыкновенного роста, широкий, с огромными красными руками, он, как говорится, не умел войти в салон и еще  менее  умел из него выйти, то есть перед выходом сказать что-нибудь  особенно  приятное. Кроме того,  он  был  рассеян.  Вставая,  он  вместо  своей  шляпы  захватил треугольную шляпу с генеральским плюмажем и держал ее,  дергая  султан,  до тех пор, пока генерал не попросил возвратить ее. Но вся его  рассеянность  и неумение войти в салон и говорить в нем  выкупались  выражением  добродушия, простоты и скромности.»

Результаты анализа:



Из результатов становится очевидно, что для семантического анализа текста, в частности для определения водности текста, используется более сложная формула.

Я перелопатил немало страниц в интернете в поисках нормальных значений показателя воды для текста. К сожалению, так ничего конкретного и не нашёл. Некоторые блоггеры дают цифры, но они, ни на чём не основываются. Поэтому верить им нельзя.



Спорить с заказчиком по поводу того, что Вы в своей статье налили воду совершенно бесполезная вещь. Всё зависит не только от типа самого текста, но и от восприятия этого текста человеком. Кому-то Ваш текст понравится, а кто-то скажет «Так здесь же полно воды».

Вывод:
Ориентироваться на программы семантического анализа текста совершенно бесполезно. Ни одна из программ так и не разъясняет методы определения водности текста и, кроме того, ни один сервис не даёт оптимальные значения «воды» в тексте. Но, то, что текст без воды это как свекольник без свеклы - сомнений нет. Остаётся только одно - определять «воду» на глаз.

А Вы знаете сколько должно быть воды в тексте?
Искренне Ваш, Владислав Лихенко
Хотите получать обновления блога
на электронную почту?


 

Категория: Копирайтинг. Обучение. | Просмотров: 9196 | Добавил: boss | Теги: семантический анализ текста | Рейтинг: 5.0/2
Всего комментариев: 12
1 Денис Каплунов     (17.01.2011 13:58)
Я вообще начинаю скептически относиться к разным сервисам, желающим анализировать творчество механическими способами.

Просто если текст назвать "творчеством" не поворачивается язык - то ни одна программа меня (и не только меня) в этом не убедит.

Тогда смысл?


2 boss     (17.01.2011 15:02)
Ну такие программы, в первую очередь, рассчитаны на сеошные тексты и о творчестве тут речь не идет. Для самих заказчиков и исполнителей, которые работают в области СЕО, скорее всего это хороший помощник, который позволяет снизить временные затраты.

Но о таланте и о творчестве судить с помощью таких сервисов ни то что вредно, этого делать просто нельзя!


3 Катерина     (17.01.2011 15:09)
Почему-то вспомнилось, как 15 лет назад я писала диплом по Гоголю, приводя в пример его пространные описания, занимавшие не одну строчку. И как уважаемый Word подчеркивал все зеленым цветом и просил разбить слишком длинное предложение на несколько. Наверное, с точки зрения всевозможных систем, Гоголя смело можно причислить к лику почетных "водолеев". Но как бы там ни было, Гоголя помнят и любят вот уже 200 лет, а имен разработчиков подобных систем мы даже не знаем:)

4 boss     (17.01.2011 15:12)
Это ещё раз подчёркивает тот факт, что к творчеству и таланту эти сервисы не имеют ни какого отношения.

5 Анатолий     (17.01.2011 16:48)
Скорее всего авторы программ семантического анализа могут принять определённую критику в свой адрес, но работу свою не прекратят. Это примерно тоже самое, что и с шахматными программами, огромная критика вначале: это не творчество! Но теперь имеем превосходство шахматных программ над лучшими шахматистами людьми. В общем, механистичность шахматных программ развилась по разным уровням: техническом - скорость процессоров, ёмкость памяти; программном - новые технологии программирования; интеллектуальном - алгоритмы, моделирующие мышление человека или специфического технического мышления.

6 boss     (17.01.2011 16:51)
Я с Вами полностью согласен. Прогресс не стоит на месте. Но в данном случае речь идёт о человеческом восприятии текста. Как можно смоделировать восприятие?

7 Ольга     (18.01.2011 07:19)
Думаю, что без так называемой "воды" текст будет слишком "сухим", а значит, неинтересным для чтения. Если цель - написать СЕО-текст, то нужно выбрать золотую середину между "водянистостью" и "оптимизацией".

8 boss     (18.01.2011 10:13)
Если при вычислении водности текста действительно используется количество стоп-слов, то убрав их можно получить вообще неудобочитаемый текст.

9 antoniox     (04.05.2011 20:56)
Очень интересное исследование.

10 Антон Загорский     (15.08.2011 17:31)
Сравните мои исследования)

отличный оригинальный текст в котором не будет повторяться ни одно слово я стараюсь установить точное значение воды тошноты и других параметров

в этом тексте воды - 28,6%

Путем отбрасывания предлогов и перебором удалось разбить этот текст на два следующих:

отличный текст котором будет слово стараюсь установить точное значение других
вода 0%

оригинальный повторяться одно воды тошноты параметров
вода 100%
Ответ: Да глупости это всё.

11 Антон Загорский     (15.08.2011 17:34)
Таким образом, у них вода - отношение значимых слов к общему количеству. Какие слова относятся к значимым и, главное, почему - тайна за семью печатями. Соответственно, чем больше этих "значимых" слов - тем больше воды почему-то. И чем слово "вода" значимее слова "текст" - тоже не очень ясно...
Ответ: Как говорят у нас в Украине:

"Не бери дурного в голову і тяжкого в руки"

12 SMM     (26.11.2012 05:26)
Интересная статья, спасибо.
После её прочтения в очередной раз убедилась, что нужно продолжать писать для людей и по-меньше обращать внимания на различные SEO-инструменты :)

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]

Автор

Меню сайта

Форма входа

Статистика

Поиск

Copyright Vladislav Likhenko © 2017 |