Стемминг

Термином стемминг именуется система поиска, предназначенная для определения и вычленения основы словоформы. Выданными поисковыми результатами, системы поиска увеличивают уровень удовлетворения запроса именно благодаря стеммингу. Сам термин возник от слова «stem», которое в русском языке имеет значения «стебель, ствол».

Термином стемминг именуется система поиска, предназначенная для определения и вычленения основы словоформы. Выданными поисковыми результатами, системы поиска увеличивают уровень удовлетворения запроса именно благодаря стеммингу. Сам термин возник от слова «stem», которое в русском языке имеет значения «стебель, ствол».

Непосредственно стемминг даёт пользователю увидеть ссылки, включающие в себя помимо лемм (прямые формы запросов), их словоформы. Стемминг русских слов — это выделение основы из производной прямого слова с помощью отбрасывания суффиксов и окончания. Разберем на примере: «деловой». После удаления суффикса «-ов-» и окончания «-ой» останется основа «дел». Следовательно, кроме документов, включающих слово «деловой», поисковая система предоставит также документы, лишь с частицей «дел».

Далее подключаются иные системы, определяющие значимость интернет-страниц для пользователя:

  • латентно-семантическое индексирование — анализ страниц на присутствие ключевых слов, их синонимов, а также слов, связанных с леммой общим смыслом в контексте;
  • леммантизация — процесс возвращения словарной формы слова. Исходя из этого, в результатах поиска также оказываются страницы, не содержащие непосредственно пользовательского запроса, но представляют интерес для данного юзера.

Применение стемминга не ограничивается системами поиска. Он активно используется веб-мастерами, реализуя опцию — поиск по сайту. Последний осуществляется благодаря специальному программному обеспечению, именуемое стеммер, которое может быть как коммерческим, так и нет.

Понравилась статья? Поделиться с друзьями:

Отправить ответ

Оставьте первый комментарий!

Уведомить
avatar
wpDiscuz