A search interface for data from the Politics of Patents case study (part of Copim WP6): this parses data from the archive of RTF files and provides additional data from the European Patent Office API. https://patents.copim.ac.uk
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

stopwords_ja.txt 1.8KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127
  1. #
  2. # This file defines a stopword set for Japanese.
  3. #
  4. # This set is made up of hand-picked frequent terms from segmented Japanese Wikipedia.
  5. # Punctuation characters and frequent kanji have mostly been left out. See LUCENE-3745
  6. # for frequency lists, etc. that can be useful for making your own set (if desired)
  7. #
  8. # Note that there is an overlap between these stopwords and the terms stopped when used
  9. # in combination with the JapanesePartOfSpeechStopFilter. When editing this file, note
  10. # that comments are not allowed on the same line as stopwords.
  11. #
  12. # Also note that stopping is done in a case-insensitive manner. Change your StopFilter
  13. # configuration if you need case-sensitive stopping. Lastly, note that stopping is done
  14. # using the same character width as the entries in this file. Since this StopFilter is
  15. # normally done after a CJKWidthFilter in your chain, you would usually want your romaji
  16. # entries to be in half-width and your kana entries to be in full-width.
  17. #
  18. ある
  19. いる
  20. する
  21. から
  22. こと
  23. として
  24. れる
  25. など
  26. なっ
  27. ない
  28. この
  29. ため
  30. その
  31. あっ
  32. よう
  33. また
  34. もの
  35. という
  36. あり
  37. まで
  38. られ
  39. なる
  40. これ
  41. によって
  42. により
  43. おり
  44. より
  45. による
  46. なり
  47. られる
  48. において
  49. なかっ
  50. なく
  51. しかし
  52. について
  53. だっ
  54. その後
  55. できる
  56. それ
  57. ので
  58. なお
  59. のみ
  60. でき
  61. における
  62. および
  63. いう
  64. さらに
  65. でも
  66. たり
  67. その他
  68. に関する
  69. たち
  70. ます
  71. なら
  72. に対して
  73. 特に
  74. せる
  75. 及び
  76. これら
  77. とき
  78. では
  79. にて
  80. ほか
  81. ながら
  82. うち
  83. そして
  84. とともに
  85. ただし
  86. かつて
  87. それぞれ
  88. または
  89. ほど
  90. ものの
  91. に対する
  92. ほとんど
  93. と共に
  94. といった
  95. です
  96. とも
  97. ところ
  98. ここ
  99. ##### End of file