Home
dp_maxime
27 October 2009 @ 01:00 pm

Создал sitemap для сайта Интернет Сочи (при помощи новой фичи DataparkSearch Engine, -Esitemap).

Созданный sitemap был засабмичен в консоли вебмастеров обои поисковиков практически одновременно (сначала в “Яндекс”, и тут же в Google). Google обработал новый sitemap в течении 5 минут, “Яндекс” до сих пор его не обработал.

Читать запись полностью »

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
13 September 2009 @ 12:23 pm

В новом снапшоте dpsearch-4.53-12092009 добавлена команда SectionSQL.

SectionSQL <name> <num> <maxlength> [strict] <SQLtemplate> [<DBAddr>]

Читать запись полностью »

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
25 July 2009 @ 01:26 pm

Несколько инфо-виджетов о DataparkSearch Engine:

Читать запись полностью »

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
16 July 2009 @ 05:47 pm

В последнем снапшоте поискового движка DataparkSearch, для поисковых шаблонов добавлен новый логический оператор <!IFREGEX, позволяющий как проверять перед выводом значение какой-либо мета-переменной на соответствие регулярному шаблону, так и модифицировать значение этой переменной перед выводом на основе этого шаблона.

Например, при поиске в базе телефонных номеров на сайте sochi.org.ru телефонные номера из канонической записи +78622xxxxxx переводятся в более привычную локальную запись xx-xx-xx, а остальные номера из канонической записи +7xxxyyyzzzzzz в более наглядный вид +7-xxx-yyy-zz-zz-zz при помощи такой конструкции в поисковом шаблоне:


<!IFREGEX NAME="tel" CONTENT="\+78622([0-9][0-9])([0-9][0-9])([0-9][0-9])(.*)">$1-$2-$3$4
<!EREGEX NAME="tel" CONTENT="\+7([0-9][0-9][0-9])([0-9][0-9][0-9])([0-9][0-9])([0-9][0-9])(.*)">+7-$1-$2-$3-$4$5
<!ELSE>$&(tel)<!ENDIF>

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
15 July 2009 @ 01:17 am

Последнем снапшоте DataparkSearch добавлена поддержка библиотеки libextractor.

При помощи этой бибилиотеки DataparkSearch может индексировать ключевые слова из файлов следующих форматов: PDF, PS, OLE2 (DOC, XLS, PPT), OpenOffice (sxw), StarOffice (sdw), DVI, MAN, FLAC, MP3 (ID3v1 and ID3v2), NSF(E) (NES music), SID (C64 music), OGG, WAV, EXIV2, JPEG, GIF, PNG, TIFF, DEB, RPM, TAR(.GZ), ZIP, ELF, S3M (Scream Tracker 3), XM (eXtended Module), IT (Impulse Tracker), FLV, REAL, RIFF (AVI), MPEG, QT and ASF.

Ниже приводится соответствие между типами keyword в libextractor и именами секций DataparkSearch:

Читать запись полностью »

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
09 July 2009 @ 10:56 pm

В последнем снапшоте DataparkSearch добавлена возможность расширения поисковых запросов при помощи регулярных шаблонов замены. В первую очередь это полезно при поиске по номеру телефона, - как правило их записывают разными способами.

Например, по запросу 8622-64-24-24 Сочи будет найден и телефонный номер, записанный в канонической форме +78622642424.

Воспользоваться этой возможностью можно на сайте Интернет Сочи при поиске по базе телефонных номеров.

На данный момент, ни Гугл, ни тем более Яндекс такой фичи не поддерживают.

Читать запись полностью »

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
04 May 2009 @ 03:21 pm

В последнем снапшоте DataparkSearch Engine расширена команда Limit, теперь в ней можно указывать SQL-запрос, возвращающий все возможные пары значение лимита и значение url.rec_id. Например:

Читать запись полностью »

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
27 April 2009 @ 11:11 am

Порт FreeBSD www/dpsearch обновлен до последней выпущенной версии DataparkSearch Engine, 4.52.

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
25 April 2009 @ 12:19 pm

Выпущена новая версия, 4.52, DataparkSearch Engine. Основные отличия от предыдущей версии:

 
 
dp_maxime
06 April 2009 @ 09:32 pm

Изменения от снапшота dpsearch-4.52-21022009:

  • Добавлена команда SkipHrefIn. Используйте её для указания какие HTML тэги нужно пропустить при поиске новых ссылок.
  • Добавлена команда SEASections. Используйте её для указания списка секций документов, по которым будет строится SEA-реферат.
  • Исправлен возможный трап на пустом документе.
  • Команда Disallow в robots.txt больше не приводит к удалению документа из базы.
  • Исправлена ошшибка в декодировании больших файлов со сжатым содержимым.

Читать запись полностью »

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
30 March 2009 @ 12:19 pm
++К  

Преамбула: ++К — новый логотип Транстелекома.

Читать запись полностью »

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
22 February 2009 @ 01:04 am

Изменения от версии 4.51:

  • Добавлена команда Quffix.
  • searchd теперь очищает кэш поисковых запросов при загрузке и при перезагрузке конфига.
  • Исправлен баг в проверке базы stored.
  • Добавлена обработка часового пояса в заголовках Last-Modified и мета.
  • Добавлена команда MakePrefixes. Используйте её для создания всех префиксов индексируемых слов документа. Предназначена для организации подсказок (suggestions).

Читать запись полностью »

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
13 January 2009 @ 02:39 pm

Порт FreeBSD www/dpsearch обновлен до последней выпущенной версии DataparkSearch, 4.51.

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
31 December 2008 @ 10:19 pm

За год показатель в тесте навигационного поиска увеличен с 58.719% на 4 января 2008 до 85.141% на сегодня. За тоже время средняя позиция сайтов-маркеров сократилась с 2.4545 до 2.3491. По этому показателю DataparkSearch превосходит поисковики Yahoo, Aport и Yanga.

В тематическом поиске на сегодняшний день поисковик Вершки Рунета находит 16.143% сайтов маркеров (190 из 1177). И по этому показателю опережает поисковики Yanga, Aport, Rambler и Yahoo.

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
31 December 2008 @ 08:51 pm

Выпущена новая версия, 4.51, DataparkSearch Engine. Основные отличия от предыдущей версии:

  • В расчет релевантности добавлен учет нахождения на страницах документа точной как в запросе фразы.
  • Реализована синхронизация на основе CAS для платформы i386/x86_64.
  • Добавлена команда ActionSQL. Используйте её для выполнения SQL-запросов с данными документа во время индексирования.
  • Добавлена поддержка кодировки KOI8-C (вариант KOI8-R с буквами старо-русского алфавита).
  • Добавлена команда FastHrefCheck. Используйте её для выключения проверки ссылок против списка серверов на этапе парсинга страницы.
  • Добавлена команда SubDocCnt. Используйте её для задания максимального числа индексируемых поддокументов для одного документа.
  • Добавлена команда SubDocLevel. Используйте её для задания максимального уровня вложенности поддокументов.
  • Исправлена обработка HrefSection в парсере XML.
  • Добавлена мета-переменная $(url.directory).
  • storedoc.cgi теперь принимает имя шаблона в CGI-параметре &tmplt=.
  • Поправлен HTTP-заголовок Accept: для случая указания шаблона Content-Type в команде MIME.
  • Исправлена ошибка в смешивании результатов поиска при использовании multi-dbaddr.
  • Добавлен оператор allin<section>: к языку поисковых запросов.
  • storedoc.cgi теперь если документ недоступен в базе stored получает его непосредственно с сервера.

С Новым Годом!

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
25 December 2008 @ 06:22 pm

Компания Софтлайн открыла страницу демонстрации возможностей Google Search Appliance (GSA). Неприменул протестировать и сравниться. :) Сравнивалось число найденых документов и время работы по второй попытке с запросом “Google”:

Читать запись полностью »

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
17 November 2008 @ 09:55 pm

Изменения, добавленные со времени снапшота dpsearch-4.51-27092008:

  • Добавлена команда FastHrefCheck. Используйте её для выключения проверки ссылок против списка серверов на этапе парсинга страницы.
  • Добавлена поддержка кодировки KOI8-C (вариант KOI8-R с буквами старо-русского алфавита).
  • Добавлена команда ActionSQL. Используйте её для выполнения SQL-запросов с данными документа во время индексирования.

//DataparkSearch Engine

Читать запись полностью »

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
28 September 2008 @ 12:09 pm

Изменения от версии 4.50, добавленные с предыдущего снапшота:

  • Добавлена команда SubDocCnt. Используйте её для задания максимального числа индексируемых поддокументов для одного документа.
  • Добавлена команда SubDocLevel. Используйте её для задания максимального уровня вложенности поддокументов.
  • Исправлена обработка HrefSection
  • Добавлена мета-переменная $(url.directory).
  • storedoc.cgi теперь принимает имя шаблона в CGI-параметре &tmplt=.
  • Поправлен HTTP-заголовок Accept: для случая указания шаблона Content-Type в команде MIME.
  • Исправлена ошибка в смешивании результатов поиска при использовании multi-dbaddr.

Читать запись полностью »

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
11 August 2008 @ 08:19 pm

Изменения от версии 4.50:

  • Добавлен оператор allin<section>: к языку поисковых запросов.
  • storedoc.cgi теперь если документ недоступен в базе stored получает его непосредственно с сервера.

Читать запись полностью »

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут

 
 
dp_maxime
30 July 2008 @ 06:29 pm

Порт FreeBSD www/dpsearch обновлен до последней выпущенной версии DataparkSearch, 4.50.

Запись опубликована СоНоты.Вы можете оставить комментарии здесь или тут