Сгенерированные тексты (ИИ) ухудшают индексацию сайта: так ли это
Появление в 2023 году ChatGPT и последующая разработка аналогов привела к тому, что многие стали генерировать тексты для своих сайтов (визиток, корпоративных, интернет-магазинов, каталогов и даже информационных). Некоторые лишь пробовали, однако немало оказалось и тех, кто в погоне за тотальной экономией или по другим причинам стал полностью наполнять таким сомнительным контентом интернет-ресурсы. Ранее мы готовили комплексную статью, посвященную использованию нейротекстов – описывали их опасность, обозначали необходимость обязательно адаптации. Однако все больше в своей практике сталкиваемся с вопросами относительно непосредственной индексации сайтов и позициями в естественной органической выдаче. В тематическом материале найдете ответы на распространенные (и не только) вопросы.
Сразу спойлер – сгенерированные тексты (созданные нейронными лингвистическими моделями) влияют на позиции сайта в Google, Яндекс, Bing существенно и негативно.
Сначала закрывали глаза, теперь начинают бороться
Алгоритмы поисковых систем невероятно сложны. Они постоянно обновляются, презентуются новые версии. Google, Яндекс, Bing и другие напрямую не сообщают узкие особенности и конкретные нюансы механизмов. Во избежание манипулятивных действия со стороны пользователей. Поэтому когда появились нейротексты, таким “махинам” потребовалось время, чтобы оценить последствия их присутствия, выработать свою стратегию и принципы относительно такого контента. Лишь по этой причине некоторое время никаких санкций со стороны поисковых систем за присутствие на сайте ИИ-текстов не было. Продолжалось это весь 2023 год и первую половину 2024. Однако летом ситуация начала кардинально меняться. Начали появляться исследования (вот один из примеров), статьи экспертов (ссылка, ссылка 2). Все больше подтверждений ухудшения позиций сайтов и их пессимизации в результате размещения сгенерированных текстов (особенно в большом количестве).
Без последствий использовать на сайте нейротексты больше не выйдет.
В чем, собственно, проблема с индексацией сгенерированных текстов?
Один из ключевых критериев комплексной индексации контента на сайте и появления ресурса на высоких позициях органики – качество, польза для пользователей. Важны также оригинальность, релевантность и показатели вовлеченности пользователей (т.н. поведенческие факторы на самом сайте). Алгоритмы Google оценивают эти факторы для определения своего рода “рейтинга” страницы в органических результатах поиска. По приведенной ссылке на официальный гайдлайн Google приводится ряд риторических вопросов (12 – если быть точным), а также сопутствующие критерии (достоверность: E-E-A-T принципы, удобство, ориентированность на людей: их запросы и проблемы). Однако данная информация очень общая. В принципах ранжирования поиска Яндекс также содержатся общие рекомендации (качество контента и самого ресурса, релевантность запросу, польза для пользователей). По мнению Яндекс, чтобы ресурсу занять высокое место результатах поиска, ему стоит стремиться к тому, чтобы оставаться информативным, интересным и удобным. Остается только предполагать – каким образом все это проверяется и ранжируется. В том числе и с учетом все большего количество сгенерированного контента (количество которого возрастает ежедневно в геомитрической прогрессии). Владельцам сайтов, SEO-оптимизаторам и иследователям доступен лишь эмпирический метод – практика. Благо такой практики к началу 2025 года уже хватает, чтобы сделать определенные выводы.
Немало примеров, когда контент, созданный ИИ, привел к снижению результатов сайта в органической выдаче поисковых систем. Штрафные санкции (пессимизация) вводились за присутствие контента низкого качества, сгенерированного при помощи искусственного интеллекта (неронных генеративных лингвистических моделей), который не соответствовал рекомендациям Google. Эти случаи доказывают важность контроля качества таких ИИ-текстов и их обязательной адаптации (проверки, редактирования, переработки). Основная проблема и претензия – качество сгенерированного контента; а оно на крайне низком уровне – особенно учитывая ошибки, недостоверность, язык и стилистику изложения, логику и последовательность, содержание.
Поскольку генеративные LLM модели обучаются на основе существующего в Интернете контента, сама генерация – это лишь компиляция по заданным установкам (принципам/настройкам). Ни о какой оригинальности речи не идет, а польза очень условна.
Всего этого не могут не видеть инженеры и специалисты поисковых систем. Прекрасно видят и понимают, насколько он бесполезен. В особенности в нативной версии (сразу после непосредственной генерации по запросу – промту). Когда вы генерируете текст – крайне наивно полагать, что нейросеть вам выдаст нечто оригинальное. Суть ее функционирования сводится к набору установок, которые ровно точно также действуют и в отношении запросов других миллионов пользователей. Во многом из-за схожести (формулировок, структуры, содержания, изложения, формата, стилистики, пунктуации, речевых оборотов, форматирования и многих других моментов) и без того низкокачественный контент обозначается еще на более низком месте – вплоть до серьезных санкций и пессимизации сайта. Именно поэтому “закрывать” глаза на это никак не могут. Если все больше появляется сервисов, которые с высокой долей вероятности определяют текст на степень его создания нейросетью – как вы думаете, научились ли в Google и Яндекс к 2025 году определять такой контент или до сих пор нет?
Большинство инсайдеров сходится в следующем общем мнении:
Автоматически сгенерированный контент (нейротексты, ИИ-тексты) – сгенерирован программно, не создает ничего оригинального, не представляет ценности; основная цель генерации – манипулирование поисковым ранжированием, а не помощь пользователям.
Как Google определяет нейротексты и пессимизирует сайт?
Может это все фикция, конспирология, и на самом деле поисковые системы никаких штрафов за использование ИИ-контента не накладывают? Как бы не так. Инсайдерские свидетельства, практические исследования, напрямую подтверждают негативные последствия. Буквально в 100% случаев (сайтов, на которых размещены сгенерированные тексты) пессимизация затронула ресурсы, владельцы которых применяли различные нейросетевые сервисы и инструменты для генерации контента. Просто посмотрите на график и убедитесь в масштабе рассматриваемого вопроса.
Основная проблема в плохом контенте, спаме и манипуляции ранжированием, а не в самой автоматизации как таковой. Google использует передовые технологии и постоянно совершенствует свои алгоритмы, основанные на своей обширной информационной базе данных, чтобы лучше охватить и проанализировать весь контент, опубликованный в Интернете. За последние несколько лет они значительно улучшили обнаружение контента, созданного ИИ. Это означает, что чем сложнее алгоритмы, которые разрабатывает Google, тем ближе они к выявлению того, что такие тексты сгенерированы нейросетью. Bing и Яндекс стараются в этом контексте не отставать. Отвечая на вопрос: как же Google определяет сгенерированные тексты на сайте, приведем основные методики:
- структура и формат текста (грамматика, синтаксис, морфология, последовательность изложения, ошибки)
- фактология (наличие выдуманных или ошибочных фактов, манипуляция данными)
- контекстное понимание (похож ли контент на написанный человеком или применены шаблоны, типичные для ИИ-текста, созданного с помощью искусственного интеллекта: слова в предложении, расстановка, фразы, контекст)
- схожесть и однотипность (аналогичные или очень схожие тексты несмотря на измененную тематику, соотнесение с аналогичными сайтами той же направленности)
- поведенческие факторы (оценивание ценности контента в свете пользовательского опыта, совершении целевых действий на странице)
Помогает ли грамотная SEO-оптимизация улучшить результат сайта с нейротекстами?
Теперь уже нет. Если раньше грамотная работа с семантикой. МЕТА-тегами, версткой страницы приводила к весьма неплохим результатам (даже при размещенном на ней ИИ-текстом), нынче все эти действия малоэффективны или безрезультатны вовсе. Все больше свидетельств и подтверждений тому, что сгенерированные тексты при помощи LLM-моделей являются ничем иным как “автоматически сгенерированным спам-контентом“, а потому следуя своим принципам и правилам, поисковые системы просто не могут обходить стороной и никак не реагировать на подобный низкосортный контент – даже несмотря на стремительное развитие версий ChatGPT, Gemini, Claude и появление таких перспективных и новых как DeepSeek.
Отношение поисковых систем к сгенерированным текстам весьма своеобразное. Напрямую они не против такого “контента”, но до тех пор, пока он качественный и создается для пользы людей. В тот момент, когда он изначально создается для манипуляции ранжирования – это “красная тряпка” для алгоритмов, которые стремятся определить такие сайты, разобраться с ними и навести порядок (пессимизировать). Будем честны, цель большинства прибегающих к генерации текстов именно такая. Поэтому не стоит удивляться фактической борьбе поисковых систем с низкокачественным сгенерированным контентом, размещенным на ресурсах.
Что делать?
Все просто – не использовать напрямую сгенерированные тексты на сайте. Даже несмотря на развитие сервисов и моделей. Если применяете – обязательно адаптйруйте их. Без этого никак. Однако в свете того, что Google (в своем Gemini) и даже сами создатели иных нейросетей создают и совершенствуют все более эффективные средства отслеживания ИИ-контента – лучше в принципе отказаться от генеративного контента. Обратиться к профессиональному копирайтеру для создания оригинальных, качественных и гарантированно эффективных текстов.
Внимание! Важная информация: Перед тем как скопировать и незаконно использовать данный текст, ознакомьтесь с правилами пользования материалами сайта Berezovski.by.