ďťż
 
polskie stop words w tsearch2 ďťż
 
polskie stop words w tsearch2
Zobacz wiadomości
 
Cytat
A gdyby tak się wedrzeć na umysłów górę, / Gdyby stanąć na ludzkich myśli piramidzie, / I przebić czołem przesądów chmurę, / I być najwyższą myślą wcieloną. . . Juliusz Słowacki, Kordian
Indeks BCB i MySQL subiekt gt fototapeta
 
  Witamy

polskie stop words w tsearch2



takeshin - 28-06-2006 00:09
polskie stop words w tsearch2
  witam!

walczę z instalacją tsearch2 na postgresie,
i mam problem z dodaniem słownika.

zrobiłem listę słów polish.stop,
ale chyba jeszcze mam w niej złe kodowanie,
bo dalej indeksuje słowa z polskimi literkami np. "się" lub "także"
pozostałe jak "lub" "czy" odrzuca tak jak powinien

jakie powinno być kodowanie pliku polish.stop,
żeby działało z bazą w latin2

czy ktoś już to przeskoczył?
ma ktoś gotową listę takich słów?
na mojej jest 110 pozycji,
to chyba zbyt mało?

pozdrawiam,





ethanak - 29-06-2006 00:42

  On 2006-06-27 19:38, takeshin wrote:
> witam!

[...]

> ma ktoś gotową listę takich słów?
> na mojej jest 110 pozycji,
> to chyba zbyt mało?

http://www.ranks.nl/stopwords/polish.html

Jeśli 110 pozycji to chyba korzystamy z tej samej (Content compiled by
Maciek Uhlig, z dystrybucji mnogosearch). Używam co prawda nie w
tsearch2 a w mnogo ale wygląda na to że zawiera to co trzeba.

ethanak
--
mailto=window.atob('ZXRoYW5ha0Bwb2xpcC5jb20=');




takeshin - 29-06-2006 00:42

  >> ma ktoś gotową listę takich słów?
>> na mojej jest 110 pozycji,
>> to chyba zbyt mało?
>
> http://www.ranks.nl/stopwords/polish.html
>
> Jeśli 110 pozycji to chyba korzystamy z tej samej (Content compiled by
> Maciek Uhlig, z dystrybucji mnogosearch). Używam co prawda nie w
> tsearch2 a w mnogo ale wygląda na to że zawiera to co trzeba.
>
> ethanak

tak,
dokładnie z tego linku ściągnąłem
ale wiem,
że za lista jest zbyt uboga
brakuje np. "się" "takiemu" "takim" itp.

poza tym,
w dalszym ciągu nie wiem,
w jakim kodowaniu powinien zostać zapisany plik polish.stop,
żeby porównywać też słowa z polskimi literkami
(baza jest w latin2)




ethanak - 29-06-2006 00:42

  takeshin napisał(a):
[...]
> że za lista jest zbyt uboga
> brakuje np. "się" "takiemu" "takim" itp.

A faktycznie :(

Jako że jest mi to do szczęścia niezbędne pewnie zaraz się tym zajmę -
jak skończę to wystawię gdzieś poprawiony plik.
>
> poza tym,
> w dalszym ciągu nie wiem,
> w jakim kodowaniu powinien zostać zapisany plik polish.stop,
> żeby porównywać też słowa z polskimi literkami
> (baza jest w latin2)

Tu nie pomogę niestety - u mnie w mnogo charset jest deklarowany w pliku.

ethanak
--
mailto=window.atob('ZXRoYW5ha0Bwb2xpcC5jb20=');
/* Pisze człowiek ambitnie, a tu przychodzi prostak i wszystko rozumie.
To jest ewidentna bezczelność!
S. Friedmann/J. Kofta */





ethanak - 29-06-2006 00:43

  takeshin napisał(a):
[...]
> że za lista jest zbyt uboga
> brakuje np. "się" "takiemu" "takim" itp.

To co mi się udało na szybko zrobić:

http://www.polip.com/pl.sl.gz

Zerknij, jakby co dodaj swoje których nie mam, może się uda jakąś
porządną listę wysmażyć.

ethanak
--
mailto=window.atob('ZXRoYW5ha0Bwb2xpcC5jb20=');
/* Pisze człowiek ambitnie, a tu przychodzi prostak i wszystko rozumie.
To jest ewidentna bezczelność!
S. Friedmann/J. Kofta */




takeshin - 29-06-2006 00:43

  ethanak napisał(a):
> takeshin napisał(a):
> [...]
>> że za lista jest zbyt uboga
>> brakuje np. "się" "takiemu" "takim" itp.
>
> To co mi się udało na szybko zrobić:
>
> http://www.polip.com/pl.sl.gz
>
> Zerknij, jakby co dodaj swoje których nie mam, może się uda jakąś
> porządną listę wysmażyć.
>
> ethanak

dzięki,
ta lista jest zdecydowanie konkretniejsza,
ale brakuje, dla przykładu:
zaś
tudzież
ażeby
ewentualnie
mimo
pomimo

odezwę się,
jak będę już miał gotową listę

teraz mam następny problem,
bo nie mogę popadać w skrajność.
na przykład przy indeksowaniu nazw firm,
w wyszukiwarce nie będzie można znaleźć nic
o firmie która się nazywa mimo...

myślę,
że zrobię to trochę dłuższą metodą:
pozwolę indeksować wszystko,
potem zrobię statystykę dla konkretnych słów i ilości wystąpień
i będę wiedział, o ile mi się niepotrzebnie baza powiększa
i czy zabawa jest tego warta




ethanak - 30-06-2006 00:07

  takeshin napisał(a):
[...]
> teraz mam następny problem,
> bo nie mogę popadać w skrajność.
> na przykład przy indeksowaniu nazw firm,
> w wyszukiwarce nie będzie można znaleźć nic
> o firmie która się nazywa mimo...

Fakt - w tekście o kulturze Tybetu słowo "jak" to nie stopword :)

Wydaje mi się, że można opracować taką maksymalną listę, z której każdy
mógłby sobie wybrać to co mu pasuje (łatwiej jest w końcu usunąć
niepotrzebne rzeczy z gotowej listy niż wymyślać nową).

W razie czego pisz na priv - może razem coś sensownego sklecimy :)

ethanak
--
mailto=window.atob('ZXRoYW5ha0Bwb2xpcC5jb20=');
/* Pisze człowiek ambitnie, a tu przychodzi prostak i wszystko rozumie.
To jest ewidentna bezczelność!
S. Friedmann/J. Kofta */
  • zanotowane.pl
  • doc.pisz.pl
  • pdf.pisz.pl
  • effulla.pev.pl
  • comp
    Import za =?ISO-8859-2?Q?pomoc=B1_EMS_Data_Import_for_?==?ISO-8859-2?Q?MySQL_-_polskie_litery=2E?= xHarbour/CLipper/Linuks - brak polskich =?ISO-8859-2?Q?znak=F3w_?==?ISO-8859-2?Q?w_GET?= =?ISO-8859-2?Q?[psql]_Polskie_t=B3umaczenie_?= =?ISO-8859-2?Q?licencji_BSD_dla_PostgreSQL=3F?= [MySQL] Po aktualizacji =?ISO-8859-2?Q?znikn=EA=B3y_polskie_?==?ISO-8859-2?Q?znaki=2E?= polski nowy klip. realizacja Fotki i montaż: Rymek Błaszczak. animki fx i CC: mariusz mario zdanowski VFP 8 i problem z polskimi znakami przy otwieraniu dbf-a z dosowego Fox-a =?ISO-8859-2?Q?[firebird]_gdzie_si=EA_podzia=B3y_polskie_literki?= =?iso-8859-2?q?mysql_+_polskie_znaczki_+_brak_pomys=B3=F3w?= Zapis polskich literek w bazie danych US7ASCII z bazy EE8ISO8859P2 [MySql] Select, polskie znaki i duze oraz małe litery
  • zanotowane.pl
  • doc.pisz.pl
  • pdf.pisz.pl
  • ets2.xlx.pl
  • Cytat

    Decede mihi sole - nie zasłaniaj mi słonca.
    Gdy kogoś kochasz, jesteś jak stworzyciel świata - na cokolwiek spojrzysz, nabiera to kształtu, wypełnia się barwą, światłem. Powietrze przytula się do ciebie, choćby był mróz, a ty masz w sobie tyle radości, że musisz ją rozdawać wokoło, bo się w tobie nie mieści
    Hoc fac - tak czyń.
    A tergo - od tyłu; z tyłu.
    I czarne włosy posiwieją. Safona

    Valid HTML 4.01 Transitional

    Free website template provided by freeweblooks.com