Синонимы: библиотека слов и словосочетаний
Подскажите кто в теме или хотя бы где почитать...
Буду делать библиотеку слов и словосочетаний, которые при написании будут заменятся на мои.
Сия приблуда нужна для таксономии автор. Иногда пишут Иван Петров, иногда Петров Иван, иногда Ваня Петров, а ведь это один терми/тег. Знаю что нужно искать синонимы - но везде попадаются примеры как из одного слова сделать другие.
К примеру на этом сайте, у Кама, кто-то пише в тегах: база данных, database, databace... А ведь это одна и та же тема.
На сайте 6000 тегов, и кое где теги повторяются и приходится их объединять
Можно попробовать использовать этот сервис https://dadata.ru/merging/
У меня не настолько все плохо - из 6000+ терминов, находил около 5-6 дублей,
Пока что пришла идея посмотреть код из cyr-to-lat - там есть сравнение вхождений, может и мне подойдёт.
Пока что пишу скрипт чтоб пользователи могли добавлять к статье теги и категории , вот там то и нужно будет отлавливать синонимы и приводить к общему названию.
В данной ситуации я бы сделал для поста произвольное поле user_tags например, а далее как главный редактор уже добавлял тэги к записи, анализируя данные которые ввёл автор.
Тяжелый случай по моему, но я не в теме...
Сделай может просто объединение по указанному массиву и периодически добавляй туда данные. Автоматом как такое сделать, чтобы это нормально работало даже не знаю.
Ну базовые функции можно написать для
Иван Петров, Петров Иван
, типа: делить строку на слова, переводить в нижних регистр, сортировать и сравнивать если одно и тоже то брать первое.