一直都在
不断前进和探索

新建记事本(notepad)指定默认编码UTF-8或GBK

sense阅读(282)

程序经常出现莫名其妙的编码问题,最后才发现是用记事本新建的,或者是用记事本打开编辑过操作保存,懒癌患者,搜了一下具体教程说明:

  • 打开目录(没有则自己新建) : C:\WINDOWS\SHELLNEW
  • 在该目录下创建一个文本文档(txt):右键 – 新建 – 文本文档 命名为:UTF8.txt
  • 打开该文档选择:文件 – 另存为编码格式UTF-8
  • regedit打开注册表,按以下路径找到ShellNew项:HKEY_CLASSES_ROOT.txt\ShellNew
  • 新建 – 字符串,命名为:FileName双击填入刚刚txt文件的路径,C:\WINDOWS\SHELLNEW\UTF8.txt
  • 按以下路径找到Notepad项:HKEY_CURRENT_USER\Software\Microsoft\Notepad
  • 更改以下两项值为:1(如果不存在,自行创建:右键 – 新建 – DWORD)
  • fSavePageSettings
  • fSaveWindowPositions

谷歌云【gcp】开启ssh访问并设置密码

sense阅读(346)

谷歌云默认是不能用第三方ssh工具链接,并且root也没有启用。

第一步设置root密码:

  • sudo -i //切换到root用户
  • passwd //设置root密码

第二步开启SSH访问:

  • vi /etc/ssh/sshd_config //输入i编辑ssh配置文件
  • PermitRootLogin yes //默认为no,需要开启root用户访问改为yes
  • PasswordAuthentication yes //默认为no,改为yes开启密码登陆
  • esc 再 :wq保存退出
  • reboot //重启服务器

Linux硬件检测,网速测试

sense阅读(243)

bench.sh 是linux下一个比较优秀的一键测试脚本,用的人也非常多。

bench.sh功能

  • 能够显示各种硬件信息(系统信息)
  • 下载测试结果比较全面(拥有全球多家知名数据中心)
  • 支持IPv6的网速测试
  • I/O测试3次,并且显示平均值
  • 一目了然( 显示信息的颜色,分门别类,更容易区分 )

bench.sh使用方法

命令1:

wget -qO- bench.sh | bash  或者  curl -Lso- bench.sh | bash 

命令2:

wget -qO- 86.re/bench.sh | bash 或者 curl -so- 86.re/bench.sh | bash

BBR加速方法,BBR加速脚本教程

sense阅读(1855)

本文介绍一键傻瓜式升级内核并且安装BBR加速。申明:一键安装BBR的教程由泰迪大佬创建!

Google的TCP BBR 拥塞控制算法已经被收入Linux 4.9开始的各个版本内,本一键BBR安装包仅适用于操作系统为CentOS 6+,Debian 7+,Ubuntu 12+ 以及KVM、Xen、VMware等虚拟环境(不包括OpenVZ)。原文:https://teddysun.com/489.html ,作者在主机测评群内。

使用root用户登录,运行以下命令:

wget --no-check-certificate https://github.com/teddysun/across/raw/master/bbr.sh && chmod +x bbr.sh && ./bbr.sh

安装完成后,脚本会提示需要重启 VPS,输入 y 并回车后重启。
重启完成后,进入 VPS,验证一下是否成功安装最新内核并开启 TCP BBR,输入以下命令:

uname -r

查看内核版本,显示为最新版就表示 OK 了

sysctl net.ipv4.tcp_available_congestion_control

返回值一般为:
net.ipv4.tcp_available_congestion_control = bbr cubic reno

sysctl net.ipv4.tcp_congestion_control

返回值一般为:
net.ipv4.tcp_congestion_control = bbr

sysctl net.core.default_qdisc

返回值一般为:
net.core.default_qdisc = fq

lsmod | grep bbr

返回值有 tcp_bbr 模块即说明 bbr 已启动。注意:并不是所有的 VPS 都会有此返回值,若没有也属正常。

CentOS 下最新版内核 headers 安装方法

本来打算在脚本里直接安装 kernel-ml-headers,但会出现和原版内核 headers 冲突的问题。因此在这里添加一个脚本执行完后,手动安装最新版内核 headers 之教程。
执行以下命令

yum --enablerepo=elrepo-kernel -y install kernel-ml-headers

根据 CentOS 版本的不同,此时一般会出现类似于以下的错误提示:

Error: kernel-ml-headers conflicts with kernel-headers-2.6.32-696.20.1.el6.x86_64
Error: kernel-ml-headers conflicts with kernel-headers-3.10.0-693.17.1.el7.x86_64

因此需要先卸载原版内核 headers ,然后再安装最新版内核 headers。执行命令:

yum remove kernel-headers

确认无误后,输入 y,回车开始卸载。注意,有时候这么操作还会卸载一些对内核 headers 依赖的安装包,比如 gcc、gcc-c++ 之类的。不过不要紧,我们可以在安装完最新版内核 headers 后再重新安装回来即可。
卸载完成后,再次执行上面给出的安装命令。

yum --enablerepo=elrepo-kernel -y install kernel-ml-headers

成功安装后,再把那些之前对内核 headers 依赖的安装包,比如 gcc、gcc-c++ 之类的再安装一次即可。

为什么要安装最新版内核 headers 呢?
这是因为 x-libev 版有个 tcp fast open 功能,如果不安装的话,这个功能是无法开启的。

内核升级方法

如果是 CentOS 系统,执行如下命令即可升级内核:

yum --enablerepo=elrepo-kernel -y install kernel-ml kernel-ml-devel

如果你还手动安装了新版内核 headers ,那么还需要以下命令来升级 headers :

yum --enablerepo=elrepo-kernel -y install kernel-ml-headers

CentOS 6 的话,执行命令:

sed -i 's/^default=.*/default=0/g' /boot/grub/grub.conf

CentOS 7 的话,执行命令:

grub2-set-default 0

如果是 Debian/Ubuntu 系统,则需要手动下载最新版内核来安装升级。
这里下载最新版的内核 deb 安装包。
如果系统是 64 位,则下载 amd64 的 linux-image 中含有 generic 这个 deb 包;
如果系统是 32 位,则下载 i386 的 linux-image 中含有 generic 这个 deb 包;
安装的命令如下(以最新版的 64 位 4.12.4 举例而已,请替换为下载好的 deb 包):

dpkg -i linux-image-4.12.4-041204-generic_4.12.4-041204.201707271932_amd64.deb

安装完成后,再执行命令:

/usr/sbin/update-grub

最后,重启 VPS 即可。

特别说明

如果你使用的是 Google Cloud Platform (GCP)更换内核,有时会遇到重启后,整个磁盘变为只读的情况。只需执行以下命令即可恢复:

mount -o remount rw /

织梦DEDECMS安全设置教程

sense阅读(673)

织梦网站系统是目前用户数量最多的开源CMS网站系统之一,因此也很容易成为黑客的攻击目标。织梦系统的官方更新速度相对较慢,所以很多站长只能做好网站安全工作。在这里告诉如何来做好织梦网站安全设置。

尽量使用独立服务器/vps

跨站不多说,尽量使用阿里云、腾讯云等有防火墙的idc商,或者自己装一个安全狗之类的软件!

dedecms程序方面的安全设置方法

  1. 默认后台文件夹“dede” 修改成其他的名字,越复杂越好,例如:“kA542FUW3JhMA3XvAL5”,毕竟md5都可以跑出来,更何况是后台路径?
  2. 删除member文件夹(会员功能)
  3. 删除special文件夹(专题页)
  4. 删除install文件夹(安装功能)
  5. plus文件夹只留:
    • img文件夹, CSS样式在里面所以保留,如删除会造成发布文章时界面错位,所以保留
    • ad_js.php 广告位,有些模板用到后台调用广告位,如不确定,建议保留
    • count.php 文章浏览次数,建议保留
    • diy.php 留言系统,有些模板用户在线留言功能用到,如不确定,建议保留
    • list.php 动态栏目,这个保留也没影响,建议保留
    • search.php 搜索功能,如不确定,建议保留
    • view.php 动态文章,道理和list.php一样,建议保留
  6. 删除plus目录下guestbook文件夹(留言板)
  7. dede后台管理目录下可删除文件:
    • file_manage_control.php
    • file_manage_main.php
    • file_manage_view.php
    • media_add.php
    • media_edit.php
    • media_main.php
    • 不需要SQL命令运行器,可将dede/sys_sql_query.php 删除
    • 不需要tag功能,可将根目录下tag.php删除
    • 不需要顶踩,可将根目录下digg.php与diggindex.php删除
    • 不需要下载发布功能,可将dede/soft__xxx_xxx.php删除

DEDE 管理目录下的这些文件是后台文件管理器,属于多余功能,而且最影响安全

最安全的方式:本地发布html,然后上传到空间。不包含任何动态内容,理论上最安全,不过维护相对来说比较麻烦,这里倒是想到了一点,可以弄个软件这样子来搞!

win10启用自带openssh

sense阅读(459)

刚好有一台新的linux,想起好像win10可以用Powershell、CMD链接,就懒得去下载工具了。

win10启用自带openssh步骤:

  • 右键 开始图标→应用和功能→管理可选功能→添加功能;
  • 找到openssh client(beta) 安装即可( 如要远程连接win10请装服务端 )
  • 一定要用管理员运行shell或者cmd,不然找不到命令。
  • 最后执行ssh 命令, 格式: ssh username@ip

windows下mongodb安装

sense阅读(453)

踩了几次坑,记性不太好,写个日记记录下来吧,免得下次又出错。

  • 官网下载文件后默认安装(不要在安装过程中修改数据保存以及日志路径)
  • 修改路径C:\Program Files\MongoDB\Server\4.0\bin\mongod.cfg
  • 保存后重启服务就OK了

Mongodb启用外网链接

配置文件内默认的 bindIp: 127.0.0.1改为bindIp: 0.0.0.0即可

MongoDB添加账号密码

  • 管理员身份打开cmd,切换到 MongoDB 安装路径(…\Mongodb\bin)
  • cmd运行mongo.exe,命令”use admin切换到admin数据库
  • 创建所有数据库管理员账户密码:db.createUser({user:"账号",pwd:"密码",roles:[{role:"userAdminAnyDatabase",db:"admin"}]})
  • 查看是否创建成功,如果true返回1:db.auth({user: "账号", pwd: "密码"})
  • db.grantRolesToUser(“账号”, [{role:”权限”, db:”admin”}]) 添加授权

MongoDB开启验证登录

添加账号密码之后并没有开启验证登录,还是不需要密码登录,所以需要开启下;

  • 打开配置文件 mongod.cfg ,找到#security:
  • #去掉,改为:security:
    authorization: enabled
  • 一定记得缩进,以及不能同一行否则1053错误
  • 开启验证后需要登录才能操作 db.auth({user: "账号", pwd: "密码"})

指定数据库创建账户

运行mongo.exe进入操作界面后,使用use “数据库名字”切换到特定数据库
运行:
db.createUser({user:"账号",pwd:"密码",roles:[{role:"readWrite",db:"admin"}]})

MongoDB内置的数据库角色

  1. 数据库用户角色:read、readWrite;
  2. 数据库管理角色:dbAdmin、dbOwner、userAdmin;
  3. 集群管理角色:clusterAdmin、clusterManager、clusterMonitor、hostManager;
  4. 备份恢复角色:backup、restore;
  5. 所有数据库角色:readAnyDatabase、readWriteAnyDatabase、userAdminAnyDatabase、dbAdminAnyDatabase
  6. 超级用户角色:root
  7. 内部角色:__system

MongoDB常用命令


use; #进入数据库,如果没有这个数据库则新建一个。
db; #查看当前所在数据库
show dbs; #查看全部数据库详细信息
show collections; #显示当前数据库中的集合(类似关系数据库中的表)
show users; #查看当前数据库的用户信息
db.help(); #显示数据库操作命令,里面有很多的命令
db.version(); #当前db版本
db.getMongo(); #查看当前db的链接机器地址
net stop Mongodb #停止
db.createUser({user:"账号",pwd:"密码",roles:[{role:"userAdmin",db:"test"}]}) #创建用户 db.removeUser("userName"); #删除用户

启动MongoDB有2种方式,一是直接指定配置参数,二是指定配置文件。这里先介绍配置文件,启动方式如下:

mongod --config /etc/mongodb.conf

配置如下:


verbose:日志信息冗余。默认false。提高内部报告标准输出或记录到logpath配置的日志文件中。要启用verbose或启用verbosity 用vvvv参数,如:

verbose = true
vvvv = true

ps:启动verbose冗长信息,它的级别有 vv~vvvvv,v越多级别越高,在日志文件中记录的信息越详细。

port:端口。默认27017,MongoDB的默认服务TCP端口,监听客户端连接。要是端口设置小于1024,比如1021,则需要root权限启动,不能用mongodb帐号启动,(普通帐号即使是27017也起不来)否则报错:[mongo –port=1021 连接]

ERROR: listen(): bind() failed errno:13 Permission denied for socket: 127.0.0.1:1021
port = 27017

bind_ip:绑定地址。默认127.0.0.1,只能通过本地连接。进程绑定和监听来自这个地址上的应用连接。要是需要给其他服务器连接,则需要注释掉这个或则把IP改成本机地址,如192.168.200.201[其他服务器用 mongo –host=192.168.200.201 连接] ,可以用一个逗号分隔的列表绑定多个IP地址。

bind_ip = 127.0.0.1

maxConns:最大连接数。默认值:取决于系统(即的ulimit和文件描述符)限制。MongoDB中不会限制其自身的连接。当设置大于系统的限制,则无效,以系统限制为准。这对于客户端创建很多“表”,允许连接超时而不关闭“表”的时候很有用。设置该值的高于连接池和总连接数的大小,以防止尖峰时候的连接。注意:不能设置该值大于20000。

maxConns = 100

objcheck:强制验证客户端请求。2.4的默认设置为objcheck成为true,在早期版本objcheck默认为false。因为它强制验证客户端请求,确保客户端绝不插入无效文件到数据库中。对于嵌套文档的对象,会有一点性能影响。设置noobjcheck 关闭。

objcheck = true
#noobjcheck = false

noobjcheck:同上,默认关闭false。

#noobjcheck = false

logpath:指定日志文件,该文件将保存所有的日志记录、诊断信息。除非另有指定,mongod将所有的日志信息输出到标准输出。如果没有指定logappend,重启则日志会进行覆盖操作。

logpath=/var/log/mongodb/mongodb.log

logappend:写日志的模式:设置为true为追加。默认是覆盖。如果未指定此设置,启动时MongoDB的将覆盖现有的日志文件。

logappend=true

syslog:日志输出都发送到主机的syslog系统,而不是标准输出到logpath指定日志文件。syslog和logpath不能一起用,会报错:

Cant use both a logpath and syslog
syslog  = true

pidfilepath:进程ID,没有指定则启动时候就没有PID文件。默认缺省。

pidfilepath = /var/run/mongo.pid

keyFile:指定存储身份验证信息的密钥文件的路径。默认缺省。详情见:”

Replica Set Security” and “Replica Set Administration.”

keyFile = /srv/mongodb/keyfile

nounixsocket:套接字文件,默认为false,有生成socket文件。当设置为true时,不会生成socket文件。

nounixsocket = false

unixSocketPrefix:套接字文件路径,默认/tmp

unixSocketPrefix = /tmp

fork:是否后台运行,设置为true 启动 进程在后台运行的守护进程模式。默认false。

fork = true

auth:用户认证,默认false。不需要认证。当设置为true时候,进入数据库需要auth验证,当数据库里没有用户,则不需要验证也可以操作。直到创建了第一个用户,之后操作都需要验证。

auth = true

比如:通过db.addUser(‘sa’,’sa’)  在admin库下面创建一个超级用户,只能在在admin库下面先认证完毕了:ab.auth(‘sa’,’sa’) ,才能去别的库操作,不能在其他库验证。这样连接数据库也需要指定库:

mongo -usa -psa admin     #sa 帐号连接admin
mongo -uaa -paa test      #aa 帐号连接test

noauth:禁止用户认证,默认true。同上

noauth = true

cpu:设置为true会强制mongodb每4s报告cpu利用率和io等待,把日志信息写到标准输出或日志文件。默认为false。

cpu = true

开启日志会出现:

Mon Jun 10 10:21:42.241 [snapshotthread] cpu: elapsed:4000  writelock: 0%

dbpath:数据存放目录。默认: /data/db/

dbpath=/var/lib/mongodb

 diaglog:创建一个非常详细的故障排除和各种错误的诊断日志记录。默认0。设置为1,为在dbpath目录里生成一个diaglog.开头的日志文件,他的值如下:

Value    Setting
0    off. No logging.       #关闭。没有记录。
1    Log write operations.  #写操作
2    Log read operations.   #读操作
3    Log both read and write operations. #读写操作
7    Log write and some read operations. #写和一些读操作

设置不等于0,日志会每分钟flush 一次:

Mon Jun 10 11:16:17.504 [DataFileSync] flushing diag log
Mon Jun 10 11:17:17.442 [DataFileSync] flushing diag log

产生的日志可以用mongosniff 来查看:要是mongosniff[类似于tcpdump的作为一个MongoDB的特定的TCP/ IP网络流量]出现报错和具体用法,请见这里,之前先执行:apt-get install libpcap-dev

root@m3:/var/lib/mongodb# mongosniff --source DIAGLOG diaglog.51b542a9

注意:当重新设置成0,会停止写入文件,但mongod还是继续保持打开该文件,即使它不再写入数据文件。如果你想重命名,移动或删除诊断日志,你必须完全关闭mongod实例。

diaglog = 3

directoryperdb:设置为true,修改数据目录存储模式,每个数据库的文件存储在DBPATH指定目录的不同的文件夹中。使用此选项,可以配置的MongoDB将数据存储在不同的磁盘设备上,以提高写入吞吐量或磁盘容量。默认为false。
注意:要是在运行一段时间的数据库中,开启该参数,会导致原始的数据都会消失(注释参数则会回来)。因为数据目录都不同了,除非迁移现有的数据文件到directoryperdb产生的数据库目录中,如:
root@m3:/var/lib/mongodb# mv test.* test/ 
把test数据文件迁移到directoryperdb产生的数据库test目录中。 所以需要在规划好之后确定是否要开启。

directoryperdb = ture
原始数据结构:
journal
mongod.lock
local.0
local.1
local.ns
test.0
test.1
test.ns

开启 directoryperdb,并把数据文件迁移到相关的数据目录后的结构:

journal
mongod.lock
local/local.0
local/local.1
local/local.ns
test/test.0
test/test.1
test/test.ns

journal:日志,(redo log,更多的介绍请看这里这里
默认值:(在64位系统)true。
默认值:(32位系统)false。
设置为true,启用操作日志,以确保写入持久性和数据的一致性,会在dbpath目录下创建journal目录。
设置为false,以防止日志持久性的情况下,并不需要开销。为了减少磁盘上使用的日志的影响,您可以启用nojournal,并设置为true。
注意:在64位系统上禁用日志必须使用带有nojournal的。

#journal=true
journal=false

32位OS:

Tue Jun 11 12:17:09.628 [initandlisten] ** NOTE: This is a 32 bit MongoDB binary.
Tue Jun 11 12:17:09.628 [initandlisten] **       32 bit builds are limited to less than 2GB of data (or less with --journal).

64位OS:

Tue Jun 11 12:29:34 [initandlisten] journal dir=/var/lib/mongodb/journal
Tue Jun 11 12:29:34 [initandlisten] recover : no journal files present, no recovery needed

nojournal:禁止日志
默认值:(在64位系统)false。
默认值:(32位系统)true。
设置nojournal为true关闭日志,64位,2.0版本后的mongodb默认是启用 journal日志。

nojournal=true

journalCommitInterval:刷写提交机制,默认是30ms或则100ms。较低的值,会更消耗磁盘的性能。
此选项接受2和300毫秒之间的值:
如果单块设备提供日志和数据文件,默认的日记提交时间间隔为100毫秒。
如果不同的块设备提供的日志和数据文件,默认的日记提交的时间间隔为30毫秒。

journalCommitInterval=100

ipv6:是否支持ipv6,默认false。

jsonp:是否允许JSONP访问通过一个HTTP接口,默认false。

nohttpinterface:是否禁止http接口,即28017 端口开启的服务。默认false,支持。

nohttpinterface = false

noprealloc:预分配方式。
默认false:使用预分配方式来保证写入性能的稳定,预分配在后台进行,并且每个预分配的文件都用0进行填充。这会让MongoDB始终保持额外的空间和空余的数据文件,从而避免了数据增长过快而带来的分配磁盘空间引起的阻塞。
设置noprealloc= true来禁用预分配的数据文件,会缩短启动时间,但在正常操作过程中,可能会导致性能显著下降。

noprealloc = false

noscripting:是否禁止脚本引擎。默认是false:不禁止。ture:禁止
要是设置成true:运行一些脚本的时候会出现:

JavaScript execution failed: group command failed: { "ok" : 0, "errmsg" : "server-side JavaScript execution is disabled" }
#noscripting = true     <====> noscripting = false

notablescan:是否禁止表扫描操作。默认false:不禁止,ture:禁止

禁止要是执行表扫描会出现:

error: { "$err" : "table scans not allowed:test.emp", "code" : 10111 }

可以动态修改设置:

db.adminCommand({setParameter:1, notablescan:false})
#notablescan = true  <====> notablescan = false

nssize:命名空间的文件(即NS)的默认大小,默认16M,最大2G。
所有新创建的默认大小命名空间的文件(即NS)。此选项不会影响现有的命名空间的文件的大小。默认值是16M字节,最大大小为2 GB。让小数据库不让浪费太多的磁盘空间,同时让大数据在磁盘上有连续的空间。

-rwxrwxrwx 1 mongodb zhoujy  16M  6月 11 14:44 test.0
-rwxrwxrwx 1 mongodb zhoujy  32M  6月  1 21:36 test.1
-rwxrwxrwx 1 mongodb zhoujy  16M  6月 11 14:44 test.ns
drwxr-xr-x 2 root    root   4.0K  6月 10 11:57 _tmp
nssize  = 16

profile:数据库分析等级设置。记录一些操作性能到标准输出或则指定的logpath的日志文件中,默认0:关闭。

级别 设置
0 关。无分析。
1 开。仅包括慢操作。
2 开。包括所有操作。

控制 Profiling  的开关和级别:2种
第一种是直接在启动参数里直接进行设置或则启动MongoDB时加上–profile=级别,其信息保存在 生成的system.profile 中。

profile = 2

第二种是在客户端用db.setProfilingLevel(级别)命令来实时配置,其信息保存在 生成的system.profile 中。

[initandlisten] creating profile collection: local.system.profile
> db.setProfilingLevel(2)
{ "was" : 0, "slowms" : 100, "ok" : 1 }
> db.getProfilingStatus()
{ "was" : 2, "slowms" : 100 }

默认情况下,mongod的禁用分析。数据库分析可以影响数据库的性能,因为分析器必须记录和处理所有的数据库操作。所以在需要的时候用动态修改就可以了。

slowms:记录profile分析的慢查询的时间,默认是100毫秒。具体同上。

slowms  = 200
> db.getProfilingStatus()
{ "was" : 2, "slowms" : 200 }

quota:配额,默认false。是否开启配置每个数据库的最多文件数的限制。当为true则用quotaFiles来配置最多文件的数量。

quota = true

quotaFiles:配额数量。每个数据库的数据文件数量的限制。此选项需要quota为true。默认为8。

quotaFiles = 8

rest: 默认false,设置为true,使一个简单的 REST API。

rest = true

设置为true,开启后,在MongoDB默认会开启一个HTTP协议的端口提供REST的服务(nohttpinterface = false),这个端口是你Server端口加上1000,即28017,默认的HTTP端口是数据库状态页面,(开启后,web页面的Commands 行中的命令都可以点进去)。mongodb自带的REST,不支持 增、删、改,同时也不支持 权限认证。
详细信息见这里这里
repair:修复数据库操作,默认是false。
设置为true时,启动后修复所有数据库,设置这个选项最好在命令行上,而不是在配置文件或控制脚本。如:
命令行修复:

> db.repairDatabase('xxx')
{ "ok" : 1 }
> db.repairDatabase()
{ "ok" : 1 }

启动时修复:

repair = true
root@m3:/var/log/mongodb# mongod --repair

启动时修复,需要关闭journal,否则报错:

Can't specify both --journal and --repair options.

并且启动时,用控制文件指定参数和配置文件里指定参数的方式进行修复之后,(修复信息见log),需要再禁用repair参数才能启用mongodb。
注意:mongod修复时,需要重写所有的数据库文件。如果在同一个帐号下不能运行修复,则需要运行chown修改数据库文件的权限。

repairpath:修复路径,默认是在dbpath路径下的_tmp 目录。

drwxr-xr-x 2 root    root   4.0K  6月 11 20:23 _tmp

smallfiles:是否使用较小的默认文件。默认为false,不使用。
设置为true,使用较小的默认数据文件大小。smallfiles减少数据文件的初始大小,并限制他们到512M,也减少了日志文件的大小,并限制他们到128M。
如果数据库很大,各持有少量的数据,会导致mongodb创建很多文件,会影响性能。

smallfiles = true

syncdelay:刷写数据到日志的频率,通过fsync操作数据。默认60秒。

syncdelay = 60

默认就可以,不需要设置。不会对日志文件(journal files)有影响

警告:如果设置为0,SYNCDELAY 不会同步到磁盘的内存映射文件。在生产系统上,不要设置这个值。

sysinfo:系统信息,默认false。

设置为true,mongod会诊断系统有关的页面大小,数量的物理页面,可用物理​​页面的数量输出到标准输出。

Tue Jun 11 21:07:15.031 sysinfo:
Tue Jun 11 21:07:15.035   page size: 4096
Tue Jun 11 21:07:15.035   _SC_PHYS_PAGES: 256318
Tue Jun 11 21:07:15.035   _SC_AVPHYS_PAGES: 19895

当开启sysinfo参数的时候,只会打印上面的信息,不会启动mongodb的程序。所以要关闭该参数,才能开启mongodb。

upgrade:升级。默认为false。
当设置为true,指定DBPATH,升级磁盘上的数据格式的文件到最新版本。会影响数据库操作,更新元数据。大部分情况下,不需要设置该值。

traceExceptions:是否使用内部诊断。默认false。

traceExceptions = false

quiet:安静模式。

quiet = true

setParameter:2.4的新参数,指定启动选项配置。想设置多个选项则用一个setParameter选项指定,可以setParameter的参数请见这里,详情请见这里
声明setParameter设置在这个文件中,使用下面的格式:

setParameter = <parameter>=<value>

如配置文件里设置syncdelay:

setParameter = syncdelay= 55,notablescan = true,journalCommitInterval = 50,traceExceptions = true

Replication Options  复制选项

replSet:使用此设置来配置复制副本集。指定一个副本集名称作为参数,所有主机都必须有相同的名称作为同一个副本集。

oplogSize:指定的复制操作日志(OPLOG)的最大大小。mongod创建一个OPLOG的大小基于最大可用空间量。对于64位系统,OPLOG通常是5%的可用磁盘空间。
一旦mongod第一次创建OPLOG,改变oplogSize将不会影响OPLOG的大小。

fastsync:默认为false。在副本集下,设置为true,从一个dbpath里启用从库复制服务,该dbpath的数据库是主库的快照,可用于快速启用同步,否则的mongod将尝试执行初始同步。注意:如果数据不完全同步,mongod指定fastsync开启,secondary或slave与主永久不同步,这可能会导致显着的一致性问题。

replIndexPrefetch:2.2版本出现的新参数,默认是all。可以设置的值有:all, none, and _id_only。只能在副本集(replSet)中使用。默认情况下,secondary副本集的成员将加载所有索引到内存中(从OPLOG之前的操作有关的)。您可以修改此行为,使secondary只会加载_id索引。指定_id_或none,防止mongod的任何索引加载到内存。

Master/Slave Replication:主从复制的相关设置

master:默认为false,当设置为true,则配置当前实例作为主实例。

master = true

slave:默认为false,当设置为true,则配置当前实例作为从实例。

slave = true

source:默认为空,格式为:<host><:port>。用于从实例的复制:设置从的时候指定该选项会让从复制指定主的实例

source = 127.0.0.1:30001

only:默认为空,用于从选项,指定一个数据库进行复制。

only = abc          #只同步abc集合(库)

slavedelay:设置从库同步主库的延迟时间,用于从设置,默认为0。

slavedelay = 60     #延迟60s同步主数据

autoresync:默认为false,用于从设置。是否自动重新同步。设置为true,如果落后主超过10秒,会强制从自动重新同步。如果oplogSize太小,此设置可能有问题。如果OPLOG大小不足以存储主的变化状态和从的状态变化之间的差异,这种情况下强制重新同步是不必要的。当设置autoresync选项设置为false,10分钟内从不会进行大于1次的自动重新同步。

autoresync = false

网页正文提取集合

sense阅读(622)

网站或工具:

 

库类:

cx-extractor

地址:https://code.google.com/archive/p/cx-extractor/

简介:(JAVA)基于行块的分布来提取网页中的正文,提取的方法是首先使用Jsoup来获取网页的内容,之后将内容传给cx-extractor,交由其来解析。

点评:这个库有时候会有错误,会将不属于正文的内容提取出来,例如一些无关的底部内容,或者一些链接。但性能比较高,约几十毫秒。

 

Boilerpipe

地址:http://code.google.com/p/boilerpipe/

简介:(JAVA)基于网页dom树来解析,内部有多种解析器。

点评:结果比较准确,性能比稍慢,大约在100毫米左右。

 

NReadability

地址:https://github.com/marek-stoj/NReadability

简介:.NET开源项目

 

Html2Article

地址:

http://www.cnblogs.com/jasondan/p/3497757.html

https://github.com/stanzhai/Html2Article

python:https://github.com/zhuyf8899/Html2Article

 

 

python goose

地址:https://github.com/grangier/python-goose

 

Readability

地址:https://github.com/luin/readability

点评:能过滤出部分正文,但是正文包含很多标签。效果不很好。

 

newspaper

地址:https://github.com/codelucas/newspaper

点评:耗时会比较长,第一次执行耗时4s左右,解析效果也一般

 

arex

地址:https://github.com/ahkimkoo/arex

emeditor各种正则存放

sense阅读(382)

删除空行:^[\s\t]*\n

选择有test的行:.*?\bTest\b.*

选择没有test的行:^((?!Test).)+$

采集以及生成所需python环境

sense阅读(602)

文章自动生成:

  • gensim(文本分析)
  • jiagu(自然语言处理)
  • jieba(分词)
  • tensorflow(谷歌开源的深度学习框架)
  • numpy(矩阵运算工具)

采集用到:

  • requests
  • gevent
  • bs4
  • pymongo
  • bluextracter
  • lxml

记录下需要pip install的环境~

一个纯粹用来记录的博客

Url在线批量打开