meta/doxygen/character__tokenizer_8h_source.html

 #ifndef META_CHARACTER_TOKENIZER_H_

 #define META_CHARACTER_TOKENIZER_H_


 #include "analyzers/token_stream.h"

 #include "util/clonable.h"


 namespace meta

 {

 namespace corpus

 {

 class document;

 }

 }


 namespace meta

 {

 namespace analyzers

 {

 namespace tokenizers

 {


 class character_tokenizer

     : public util::clonable<token_stream, character_tokenizer>

 {

   public:

     character_tokenizer();


     void set_content(const std::string& content) override;


     std::string next() override;


     operator bool() const override;


     const static std::string id;


   private:

     std::string content_;


     uint64_t idx_;

 };

 }

 }

 }

 #endif

meta::analyzers::tokenizers::character_tokenizer::set_content
void set_content(const std::string &content) override
Sets the content for the tokenizer.
Definition: character_tokenizer.cpp:24

meta::analyzers::tokenizers::character_tokenizer
Converts documents into streams of characters.
Definition: character_tokenizer.h:34

meta::util::multilevel_clonable
Template class to facilitate polymorphic cloning.
Definition: clonable.h:28

clonable.h

meta
The ModErn Text Analysis toolkit is a suite of natural language processing, classification, information retreival, data mining, and other applications of text processing.
Definition: analyzer.h:24

meta::analyzers::tokenizers::character_tokenizer::idx_
uint64_t idx_
Character index into the current buffer.
Definition: character_tokenizer.h:68

meta::analyzers::tokenizers::character_tokenizer::next
std::string next() override
Definition: character_tokenizer.cpp:30

meta::analyzers::tokenizers::character_tokenizer::id
static const std::string id
Identifier for this tokenizer.
Definition: character_tokenizer.h:61

meta::analyzers::tokenizers::character_tokenizer::content_
std::string content_
The buffered string content for this tokenizer.
Definition: character_tokenizer.h:65

token_stream.h

meta::analyzers::tokenizers::character_tokenizer::character_tokenizer
character_tokenizer()
Creates a character_tokenizer.
Definition: character_tokenizer.cpp:19