Академическая тошнота документа

Размещаемые в Интернете тексты оптимизируются под поисковые запросы. Запросы пользователь формирует «из головы», но благодаря наличию общих культурных кодов запросы достаточно однообразны, и тексты оптимизируются под самые частые в данной нише запросы, именно в той форме, в какой они вводятся (не всегда отвечающей правилам грамматики и/или стилистики).

Существуют и обобщенные характеристики текстов, релевантные для признания текста «натуральным». Одной из таких характеристик является академическая тошнота текста.

Что такое академическая тошнота текста и как она вычисляется

Академическая тошнота документа
Понятие академической тошноты восходит к лингвостатистическому закону Ципфа, устанавливающему связь между относительной частотой слова и его рангом в тексте. Самому частотному (наиболее часто употребленному) слову присваивается ранг 1, следующему по частоте ранг 2 и т.д. Наименее редко употребляемые слова (употребляемые в тексте один раз), занимают конец упорядоченного по частоте употребления слов списка, и их ранг наиболее низок, ранг последнего слова равен количеству разных слов в тексте (не путать с общим количеством слов, которое гораздо больше!).

Закон назван в честь американского лингвиста Джорджа Ципфа, выведшего следующую закономерность для английского языка: самое употребительное слово имеет относительную частоту 10%, следующее по употребительности 5%, третье в списке 3,3%, четвертое 2,5% и т.д., т.е. относительная частота слова с рангом r равна частоте самого частого слова (10%), деленной на ранг слова.

Закон Ципфа (с поправкой французского и американского математика Бенуа Мандельброта, создателя фрактальной геометрии) в форме закона Ципфа-Мандельброта справедлив и для иных языков, кроме английского, но частота самого частотного слова, как правило, меньше 10% (для русского порядка 3-4%, для тюркских еще ниже).

Закону Ципфа удовлетворяет любой сгенерированный человеком естественный текст, и тогда вполне логично оценивать естественность текста степенью соответствия фактического распределения слов в тексте идеальному, диктуемому законом Ципфа.

Показатель академической тошноты, не прибегая для оценки естественности текста к явной проверке соответствия распределения частот слов закону Ципфа, основывается, тем не менее, на учете относительных частот слов текста, но не всех – из подсчета исключаются стоп-слова (числа, служебные и очень распространенные слова).

Оставшийся текст (после отбрасывания стоп-слов) рассматривается как релевантный для определения академической тошноты, по которому подсчитывается относительная частота (в процентах) всех слов, исключая слова, употребленные только один раз (но «одноразовые» слова из подсчета длины текста не исключаются, поскольку они являются показателем лексического богатства текста). Распределение слов (встречающихся в тексте 2 раза и более) соответствовать распределению Ципфа никак не может, поскольку не учтены стоп-слова (как правило, самые частотные в тексте); но, поскольку стоп-слова являются в живых языках самыми распространенными и первые 20-30 мест в частотном словаре языка заняты ими, для подсчета академической тошноты используется продолжение списка Ципфа текста с пропуском стоп-слов, оттого первые слова этого обновленного списка (без стоп-слов) незначительно разнятся по частоте.

Само слово «тошнота» предполагает, что при чтении текста с назойливым повторением некоторых слов человек будет испытывать неприятные ощущения, и показатель академической тошноты, как предполагается, отражает степень его неприятных ощущений.

Исходя из анализа ощущений, принято считать, что частота самого частотного слова не должна превышать 3% (иногда требование ужесточается до 2,5%). Но тогда закономерен вопрос – как должны или могут распределяться частоты слов, следующих за самым частотным? Если закрепить за ними тот же предел (3%), структура текста может оказаться резко искаженной, и наличие множества слов с указанной частотой (3%) будет бросаться в глаза при чтении. Требуется как-то регламентировать частоты последующих слов, не расписывая их детально (чего требует закон Ципфа), но свернув до одного показателя.

Если попросту просуммировать частоты, то метод не будет работать – сумма относительно частот всех слов равна 100% (или меньшее значение, порядка 50%, при неучете одноразовых слов).

Требуется иной метод, придающий больший вес более частотным словам и все менее и менее учитывающий малочастотные (не забываем, что ценность слова для читателя окажется обратной его «весу» – малочастотные слова украшают текст, а сверхчастотные навязчиво бросаются в глаза). Можно даже условно считать, что одноразовым словам придается нулевой вес при учете академической тошноты, поскольку они «тошноты» не вызывают по определению. Тогда суммироваться будут не относительные частоты слов (в процентах), а квадраты частот. Подобный алгоритм используется в сервисе advego.ru.

Поскольку этот показатель теряет привычную нам размерность «процента», из суммы квадратов частот извлекается квадратный корень, т.е. академическая тошнота выражается в привычных нам процентах. Полученное значение корректируется с учетом служебных слов, которые выбрасываются при подсчете академической тошноты (при подсчете относительной частоты слов учитываются все слова текста).

На каких сервисах можно проверить академическую тошноту

Отличной и наиболее известной программой проверки текстов на академическую тошноту является сервис advego.ru. Программа istio.com также позволяет проверить тошнотность статьи. Существует еще ряд сервисов, но, к сожалению, в отличие от двух приведенных выше программ не все позволяют проверить еще не опубликованную статью.

Также все сервисы рассчитывают коэффициент тошноты по разным алгоритмам, и какое-либо сравнение по этому параметру становится невозможным – один и тот же текст разными программами оценивается разным процентом тошноты. Оттого наиболее распространена проверка сервисом advego.ru, как наиболее удобная, с интуитивно понятным интерфейсом и развернутым анализом, подсказывающим направление дальнейшей работы с текстом.

Норма (градации) академической тошноты

Принято считать, что приемлемой является академическая тошнота от 6 до 9%. Рассмотрим, удастся ли обеспечить этот показатель при частоте самого частотного слова 3%. Если за первым словом с частотой 3% последуют слова без снижения их частот (т.е. также с частотой 3%), таких слов при академической тошноте 6% можно будет допустить всего несколько. Понятно, что поскольку за этими словами следуют и прочие слова, не являющиеся одноразовыми, требование по академической тошноте 6% окажется выполнимым лишь при существенном снижении частот следующих за словом с частотой 3% слов.

Отсюда следует метод изменения академической тошноты текста: при необходимости ее повышения следует увеличивать (достаточно равномерно) частоты самых частотных слов текста, при необходимости уменьшения – уменьшать частоты слов. Работа только с одним словом, как следует из рассмотрения принципа построения показателя академической тошноты, малопродуктивна – работать надо с 3-4 самыми частотными словами. Лишь при необходимости незначительного изменения академической тошноты удастся решить задачу изменением частоты 1-2 слов.

Снижение академической тошноты документа на примере

Рассмотрим следующий текст:

Академическая тошнота документа

Академическая тошнота равна 23,8%. Произведем ряд замен самого частотного слова «аккумулятор» на «аккумуляторная батарея», «батарея» и «АКБ», также придется заменить некоторые другие частотные слова. Исправленный текст приведен ниже, его академическая тошнота составляет 12,5%, т.е. упала практически вдвое.
Академическая тошнота документа

Увеличение академической тошноты документа на примере

Для увеличения академической тошноты текста достаточно увеличивать частоты нескольких самых частотных слов текста, находя разумные поводы включения их в текст. Если при этом непозволительно увеличивается длина текста, придется выбросить из него (без потери содержания!) часть малочастотных или даже одноразовых слов. Ниже приведен текст с академической тошнотой 5,5%:

Академическая тошнота документа

При необходимости увеличения показателя увеличиваем частоты частотных слов:

Академическая тошнота документа

Академическая тошнота повысилась и стала равной 7,8%.

Академическая тошнота текста характеризует (с определенной долей условности) степень естественности текста, и путем удержания ее в определенных пределах текст признается современными поисковыми машинами «натуральным».

Понравилась статья? Поделиться с друзьями:

Отправить ответ

Оставьте первый комментарий!

Уведомить
avatar
wpDiscuz